C114讯 1月22日专稿(蒋均牧)当下,AI大模型训练与推理正驱动算力基础设施发生根本性重构,网络互连能力已成为制约算力效能释放的关键瓶颈——市场数据显示,AI大模型参数规模正以每两年约100倍的惊人速度增长,而网络互连带宽的增速仅为1.4倍。

在题为“AI超节点互连架构演进:光互连赋能下一代智能算力底座”的2026年第一期中国光通信高质量发展论坛上,凌云光技术股份有限公司光纤器件与仪器事业部CTO张华系统阐述了面向AI场景的可重构数据中心网络(RDCN)光互连解决方案,为业界提供了破解算力集群扩展难题的新思路。他指出,光互连不仅是解决AI集群“算力墙”与“通信墙”的突破口,更是推动“以网强算、以光赋智”理念落地的关键载体。
传统互连架构遭遇瓶颈
将时间轴拉回到2023年,ChatGPT引爆的生成式AI浪潮尚处于萌芽期,彼时业界对算力互连的认知仍停留在“带宽够用就好”的粗放阶段。然而不过短短两三年,随着GPT-5、Gemini Ultra等超大规模模型的参数量突破万亿级门槛,给智算中心网络带来了前所未有的压力。
张华细数道,这首先体现在拓扑僵化与任务适配的矛盾:不同于传统云计算数据中心相对连续且稳定的流量模式,智算中心流量往往呈现明显的空间和时间结构,即分布不均衡且具有突发性,不同训练、推理任务需要适配不同物理拓扑(例如不同训练任务对带宽的需求差异可达10倍以上),亟需灵活重构集群拓扑以提升智算中心整体性能。
其次是稳定性与规模扩展的冲突:大模型训练动辄持续数周甚至数月,期间出现任何故障都有可能导致全局回退,造成严重的算力损失。而在传统固定互连架构下,单一GPU/xPU故障可能影响整个系统,故障恢复时间达到分钟乃至小时级。
最后,Spine层电交换机正成为性能瓶颈:随着互连速率不断提升,预部署的低速Spine交换机已成为新技术应用的性能瓶颈。Spine交换机的成本和功耗占整个数据中心的40%左右,全面升级将带来耗时、费钱、增加功耗等一系列问题。
在高速传输层面,当前Scale-up网络以铜缆和PCB走线为主的技术路线也面临根本限制。张华援引行业研究数据指出,随着传输速率提升,电传输损耗显著增大,传输距离急剧缩短。例如,400G速率下无源铜缆的有效传输距离仅数米,严重制约了AI集群的规模扩展。
可重构数据中心网络兴起
面对上述挑战,光互连技术凭借高带宽、高可靠、低功耗、低时延的“两高两低”特性,成为AI超节点架构演进的核心方向。以光电路交换机(OCS)与光输入输出(OIO)为核心的可重构数据中心网络由此应运而生,适用于替代Spine层电交换机、动态物理拓扑重构、故障快速恢复和计算资源池化等场景。
基于OCS,RDCN的颠覆性价值主要体现在三个维度。一是物理拓扑上的“实时重构”:得益于OCS的全光交换特性,网络连接不再依赖于固定的电交换机端口映射,而是可以通过引入压电陶瓷驱动的光束偏转技术和软件定义的方式,实时完成光路的重新配置。这意味着,针对不同的AI训练任务——无论是数据并行的All-Reduce,还是模型并行的Pipeline并行——系统都能动态匹配最优的物理拓扑,将训练效率提升20%以上。
二是故障恢复的“闪电响应”:当某块GPU或链路出现故障时,OCS可在秒级内绕过故障点建立新的光路,将故障影响隔离在局部范围,避免全集群训练中断。这种能力在十万卡级集群中显然价值连城——每减少一次小时级故障,就意味着挽回数十万美金的算力投入。
三是多代技术的“平滑演进”:与电交换机必须整代替换不同,OCS作为纯物理层设备,光层信号全透明,与上层速率、协议、调制格式等无关。无论是当前的800G光模块,还是未来的1.6T、3.2T,只需更换端侧光模块即可,核心交换层无需任何改动。这种“一次部署、多代受益”的特性,极大延长了数据中心基础设施的生命周期,也降低了技术迭代的风险。
市场数据也为RDCN的前景提供了有力佐证。Cignal AI在市场展望报告中预测,到2029年,OCS的全球市场规模将达到至少25亿美元。而LightCounting的研判则更为乐观,认为光互连技术在Scale-Up网络的规模商用将在2027年启动。Lumentum公司也已公开表示,预计到2026年底其OCS业务季度收入将达到约1亿美元。
张华透露,谷歌等北美云巨头已在这一领域探索多年,其TPU v4及后续集群均大规模部署OCS,基于OCS构建了全球最大Scale-up网络(9216张TPU卡互连),实现了从固定拓扑到弹性网络的跨越。凌云光与H+S Polatis公司合作,主推的压电陶瓷DBS方案,已出货OCS产品累计运行188亿端口小时,支持8x8~384x384不同规模选配,回损低于50dB、典型插损~1.5dB(384x384为例),还通过了Telcordia GR-63最高等级抗震测试(可抵御里氏8级以上地震),充分验证了其在极端环境下的稳定性。
光I/O芯片化获重要进展
在芯片级互连层面,以硅基光电子集成为代表的光I/O技术,可实现百卡乃至千卡Scale-up网络规模,成为下一代智算中心纵向扩展的热点方案。
业界在光I/O芯片化方面已取得重要进展:Ayar Labs推出了业界首款符合UCIe规范的光互连芯粒TeraPHY,通过16波长波分复用技术,每个波长承载32Gbps数据,实现8.192Tbps双向带宽。该公司已在OFC2025上展示基于富士通A64FX处理器的光I/O应用。
另一家创新企业Lightmatter推出的Passage L200系列光互连芯片采用3D堆叠结构,每个芯片外接32根光纤,每根光纤承载16个波长,每个波长速率达112Gbps,单个芯片双向带宽超过56Tbps。这些技术进步为AI算力集群的规模扩展提供了全新的物理基础。
“我们正在见证整个网络架构的文艺复兴。”在分享的最后,张华引用谷歌副总裁、AI与基础设施负责人阿明・瓦赫达特(Amin Vahdat)的这句名言,道出了业界对未来的共同期许。可以预见,光互连不仅将解决当前算力集群的扩展瓶颈,还将为AI的全面普惠提供坚实底座。在此过程中,凌云光等深耕光通信核心技术的企业,亦将通过持续创新推动整个产业迈向新的高度。









































