光通信
`
2026/1/22 14:31

中国电信李俊杰:光互连支撑AI超节点可持续演进

0
0

C114讯 1月22日消息(水易)大模型快速推陈出新,智能化程度不断提升,整体来看依然遵循Scaling Law法则持续演进,参数的规模、多模态的复杂度以及推理的负载不断提升,对算力的需求也呈现长期确定性的增长态势,并推动网络架构、互连技术和系统工程能力的同步演进。

这一过程中,超节点脱颖而出,成为业界关注的焦点。1月22日,在CIOE中国光博会联合C114举办的“2026中国光通信高质量发展论坛”第一场——“AI超节点互连架构演进”线上研讨会上,中国电信研究院副院长李俊杰表示,随着AI逐渐成为生产力,超节点在推理中的重要性和必要性将进一步凸显。

光互连破局AI超节点“三堵墙”

李俊杰指出,面向大模型训练、迭代调优及推理云服务能力场景需求,AI超节点可充分发挥高带宽、低时延、强协同、高效率等特点,但电互连方案或将面临内存墙、功耗墙与I/O墙“三堵墙”等问题。

内存墙方面,GPU计算能力和模型参数规模的增长速度已经明显快于HBM容量和带宽的提升,数据供给不足成为制约系统效率的关键因素。功耗墙方面,电互连能耗随速率提升急剧上升,逐渐逼近散热和能效极限。I/O墙方面,芯片引脚密度和PCB走线密度限制电I/O数量。

光互连技术有望在速率、功耗和容量三个层面解决目前超节点面临的可持续发展瓶颈。速率方面,通过LPO/LRO/CPO等新型封装模式,推动互连带宽向3.2T以及更高速率演进。功耗层面,通过以片上互连为代表的光电集成工艺创新,可显著降低单位比特能耗。容量方面,依托全光交换等新型组网架构,支持向P比特级超大规模光交换扩展。

当前,光互连技术在AI超节点中的应用场景包括:AI服务器内场景、Scale-up场景和Scale-out场景。AI服务器内部光互连主要在带宽和信号完整性受限时,补充电互连瓶颈。Scale-up场景下,光互连可以代替铜线互连、电交换机或光电协同,实现更高带宽、更低时延的节点内互连。Scale-out场景下,光互连进一步承担跨服务器、跨机柜乃至跨POD互连。

“整体来看,光互连技术正在从局部的性能补偿,发展演进成为支撑AI超节点规模化、灵活化、高可靠运行的关键技术能力。”李俊杰强调。

目前,市面上有两个典型的AI超节点应用。英伟达NVL 576采用基于CPO的Spectrum-X以太网交换机,实现512×200Gbps端口=102.4Tbps交换容量,含32个1.6T硅光的光引擎,以及可拆卸的光纤结构,用于Scale-out与Scale-across场景。

华为CloudMatrix 384超节点采用全对等互连架构,通过3168根光纤和6912个400G LPO模块构建高速互连总线,将384颗NPU、192个CPU以及存储、内存等资源全部互连和池化。

李俊杰表示,结合英伟达和华为的应用,AI超节点中,光互连技术目前主要用于Scale-out与Scale-across场景。对于单机柜内,依旧以铜线为主,在互连可靠性以及链路功耗方面仍有明显优势,但业界逐步开始将光技术下沉至GPU侧,开启早期探索。

新型光互连技术支撑可持续演进

当然,光互连技术在超节点中应用需要一系列关键技术,李俊杰将其总结为大带宽器件、系统架构以及互连介质等三个方面。

大带宽器件方面,超高速率光模块支持GPU-交换机-存储单元-HBM互连,需创新底层光电材料,使能更大带宽的光互连。磷化铟(InP)、硅光(SiP),薄膜铌酸锂(TF-LN)各有优劣,难以通过单一材料体系实现高带宽下的波段扩展,混合集成仍是重点发展方向。因此,在解决器件大带宽(>200GHz)的问题上,可以考虑引入新材料。

同时,需要通过制造工艺和先进封装,使光电芯片处于最佳工作状态,支持从异质集成向单片集成演进,但3D封装下的芯片散热问题需要关注,重点考虑采用散热材料、热电协同优化与散热基板等。

此外,随着GPU单卡/HBM带宽逐渐提升,LPO/LRO通过创新模块的封装方式与架构设计,将光模块的DSP移至设备侧的电交换芯片中,减少电光转换与电信号处理的损失,提升互连速率,降低系统整体的时延、成本与功耗。

面向3.2T及更高速率演进方向,CPO通过先进的光电共封装技术将光芯片、电交换芯片、DSP芯片等异构元件集成在一个封装体内,提升集成度,实现片上光互连,减少交换电芯片与光引擎的物理距离,降低信号的衰减程度,实现功耗的降低与速率的提升。

值得一提的是,在AI超节点的训练和推理场景中,模块的可靠性水平将直接决定整体算力系统的可用性和任务的连续性。在实际生产环境中,光模块可能面临着温度波动、湿度变化、粉尘硫化污染等多重挑战,一旦发生失效,会引发链路中断,甚至AI任务的回退,因此有必要引入电信级可靠的设计理念。IPEC Plugfest工作组已正式成立电信级光模块可靠性标准,标准获得14家IPEC成员支持。

系统架构方面,OCS可用于AI超节点内的灵活组网,通过端口级颗粒度实现GPU、存储单元等资源的灵活分配,支持动态可重构组网,最大化AI超节点的使用效率,满足多任务需求,目前谷歌已在数据中心网络中得到验证。

OCS的实现方案有多种,主流的OCS材料体系包含MEMS、SiP、Piezo等,在插损、灵敏度、端口数规模、切换时间等方面各有专长,可根据不同场景,在性能、规模、可靠性等因素之间选择合适方案。

另外,面向AI超节点的可靠性需求,基于数字孪生数据模型统一处理采集网管各种告警数据,利用孪生拓扑等基础模型和告警关联分析、故障定位等功能模型,进行故障溯源。通过这一闭环,可压缩故障定位时间,减少误判,显著提升AI超节点运行可靠性和运维效率。

同时,光模块拥有丰富的寄存器用来存储关键参数,关键信息透明对于AI超节点的管理和维护具有重要意义。基于精确感知数据,进行多维参数分析,预测AI超节点健康度,进行主动运维。

互连介质方面,空芯光纤以空气为媒介进行传输,具有低时延、低非线性、低色散的特性,可进一步下沉至超节点内部的GPU-交换机-存储单元-HBM互连,进一步降低跨芯片、跨板卡互连的同步时延,从而提升大规模AI系统的整体效率和收益。

最后,李俊杰表示,面向未来,中国电信依托在ITU-T牵头的TR.ION-aiDC技术项目,联合业界一道推动AIDC的光互连技术创新发展与实际应用。

版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销