C114讯 10月13日消息(水易)近日,在中国移动全球合作伙伴大会算力网络创新联合体分论坛期间,移动云联合中国科学院计算所、中国移动研究院等多家产业链核心企业,发布《云智算光互连发展报告》。
报告系统梳理了在智能算力爆发式增长背景下,光互连技术所面临的机遇与挑战。围绕构建超高带宽、超低时延、超低功耗的云智算光互连基础设施,提出了一系列关键路径与创新方案,推动算力基础设施效能不断提升。报告还系统介绍了移动云在智算场景下的光互连应用展望。
随着AIGC智能化程度持续提升,大模型在参数量、模型框架上的进展都会推高计算节点之间的通信量,任何网络延迟或带宽瓶颈都会导致昂贵的GPU空闲等待,大幅降低整体计算效率。移动云需要在下一步智算中心的网络通信布局上充分考虑由此带来的通信高吞吐、低延迟、全连接需求。
智算中心的交换网络架构在带宽、时延及能效比等方面都遇到了提升瓶颈,这不仅影响着数据的传输,更会影响分布式计算的执行效率和系统可扩展性。智算中心网络的演进正经历着物理层基础技术的革新。
传统的电分组交换机的交换容量受限于SerDes速率和Crossbar芯片规模,交换容量停滞在51.2T量级,光交换技术可以通过光域信号处理突破电互连的物理极限,成为未来智算中心网络架构演进的基石。
当前的技术路径中,商用高速光模块已经实现4×100G(400G)至8×200G(1.6T)的传输能力,单通道速率突破224Gbps。在研技术的单波400G光互连,有望提供3.2T光模块和Pb级别的交换容量。
在Scale-Up层面,移动云计划在1-3年的短期内,采用铜缆配合CPO光纤互连的方案:于近距离场景(≤7米),优先采用铜缆互连方案(如,AEC增强型铜缆),充分发挥低功耗、低成本及高可靠性优势;当传输距离超出铜缆有效传输范围(>7米),优先选择CPO光纤互连方案,在满足长距传输的同时,最大程度降低功耗与成本。
从3-5年长期来看,超节点Scale-Up网络互连将向端到端CPO互连方式演进。为满足不断增长的Scale-Up网络高带宽需求,XPU普遍具备单位面积高密度端口,且端口速率更高。光引擎与XPU合封是极具潜力的技术方向,随着技术突破与成本下降,端到端CPO有望成为主流技术选择。
在产业生态建设方面,移动云将加大与相关厂商的合作投入,包括封装厂(OSAT)封装能力建设、基板厂商提升大尺寸基板制作工艺及能力、连接器厂商提供通用的可拆卸光纤接口方案的合作等,通过全产业链生态逐步建立构建端到端全光互连芯片生态。
在具体的实施层面,移动云在超节点Scale-Up网络互连技术研发和部署方面会分场景、分阶段推进:针对整机柜超节点方案,推广正交矩阵互连方案或AEC铜缆互连方案;针对分机柜或级联超节点方案,优先推广一级和二级交换机之间CPO互连方案,为将来的端到端CPO化升级积累工程经验。
随着XPU侧CPO技术成熟,逐步推进端到端CPO互连方案,即在一级交换机到二级交换机采用CPO互连的基础之上,进一步将XPU与一级交换机之间的互连方案从铜缆互连切换为CPO互连。
在Scale-Out层面,移动云将在未来考虑在各平面使用OCS替代原有的Super Spine。OCS替代Super Spine并非单一设备升级,而是移动云算网架构从“电为主、光为辅”向“全光原生”的范式转变,本质是通过算网底层的全光重构,破解大规模AI算力集群的带宽瓶颈、延迟损耗与扩展桎梏,为“N+X”智算节点的弹性组网提供核心支撑。
这一升级并非简单的硬件替换,而是覆盖数据、控制、管理多平面的系统性算网协同革新。
随着移动云呼和浩特、贵阳等超大规模智算中心的落地,单集群AI加速卡规模已突破2万张,算力达6.7EFLOPS,传统基于电交换的Super Spine在横向扩展中逐渐暴露性能、成本、扩展性的三重矛盾。
未来大规模智算集群性能上限的突破将依靠OCS为代表的光互连模式,通过全光算网的Scale-Out能力,可支撑未来百万卡级智算集群的落地,为通用人工智能的发展提供底层算力底座。