移动平台
`
2025/9/18 09:55
华为罗军:破局智算集群互联瓶颈 详解光产业三要素机会与方向
0
0

C114讯 9月18日专稿(蒋均牧)生成式AI蓬勃发展,大模型训练对算力的需求呈指数级增长,超万卡智算集群已成为支撑大模型训练与推理的核心基础设施。在这一背景下,高效互联成为制约智算集群性能的关键瓶颈,传统网络技术难以满足高带宽、低时延、高可靠性的传输需求,新型光技术的创新与应用迫在眉睫。

就在第26届中国国际光电博览会期间召开的“超万卡智算集群新型光技术发展论坛”上,华为Fellow & 光传送首席架构师罗军以 “光技术在智算中心新场景的挑战和机会”为题,对此展开了探讨——他不仅剖析了智算中心的业务趋势,还提出了集群光互联的针对性解决方案,更展望了未来技术演进方向,为光产业在智算领域的发展提供了清晰的指引。

大模型迭代倒逼算力升级,网络成关键

当前,大模型技术正处于快速迭代演进阶段,主流模型参数规模从千亿向万亿跨越,且多模态发展趋势明显,大规模算力供给、尤其是智算算力的供给成为行业最迫切需求。国家数据局统计,截至2025年6月,我国日均Token消耗量已突破30万亿,一年半间激增300倍;综合第三方预测,到2030年,全球通用算力将增长十倍,智算算力将增长千倍。

罗军指出,集群是解决大规模算力需求的重要方案,但无论是参数面Scale Out还是超节点Scale Up,都需依托网络实现从单卡到多卡、框内到框间、单Pod到多Pod的连接,进而完成规模突破。在这一过程中,光技术的三大核心要素——光模块、光传输介质、光交换,将成为支撑大规模集群的关键力量。

他以光交换为例指出,谷歌从V4到V7三代产品中,始终保持3D Torus架构,且相关产品发货量可观;英伟达面向超万卡集群,也明确提出光交叉、光模块和光纤三要素的重要性。这些行业动态充分表明,光技术在智算集群中的应用已从概念走向实践,成为解决算力互联瓶颈的重要方向。

从超节点与参数面,看新技术、新方案优势

面对智算集群的复杂需求,新型光技术究竟有何优势,又如何与场景融合以形成针对性的解决方案?罗军在分享中,围绕超节点和参数面两大场景作出深入分析。

超节点作为智算集群的重要组成部分,其连接正从直连拓扑向Switch拓扑演进,从框内互联向框间互联拓展。这一演进过程中,规模扩展、低时延、性能匹配不同模型需求成为三大核心诉求。从规模来看,超节点规模已从128卡向512卡持续演进,这就要求光交叉端口数量随之从百卡级向千卡级提升。而光技术天然具备的透明性,使其能够兼容不同协议,为规模扩展提供了灵活支撑。

时延方面,超节点对时延的要求极为苛刻,端到端时延的降低成为提升集群性能的关键。罗军介绍,端到端时延由交换时延、传输介质时延和光模块时延三部分构成。引入光交叉后,相比电交叉,不仅能将跳数从6跳减少到4跳,时延还能降低30%,接近零时延;若进一步引入空芯光纤,时延可再降30%;而光模块从DPO到xPO的演进,省去DSP后,时延更是能实现10倍下降。这一系列技术组合,为超节点打造了极致的低时延网络环境。

在性能匹配上,光交叉可根据不同模型需求,通过算法与模型的联动,实现 RING、FullMech、M2N 等拓扑的完美匹配,确保网络性能能够充分适配各类大模型的运算需求。

参数面场景下,随着集群从千卡向超万卡乃至十万卡规模发展,大规模扩展、高可用性、高效率转发成为核心需求。罗军就超万卡集群介绍了两大解决方案:其一是在数据中心内部,依托OCS构建光底座,满足不同Pod的灵活扩展需求。OCS天然对速率不敏感,不同Pod可运行不同速率;同时,省去光模块不仅降低了成本,还大幅提升了可靠性,减少转发层也有效提升了参数面性能。

其二是跨数据中心场景,受功耗、能源供应、散热等因素限制,单数据中心规模扩展面临瓶颈,通过OTN超宽无损网络可将多个数据中心连接起来,实现跨数据中心集群训练。当前400G场景下,OTN单波带宽已达1.2T~1.6T,800G场景下带宽还将进一步提升,且能实现百公里甚至千公里无损传输,保障参数面稳定运行。

展望未来,三大核心领域技术演进方向

在明确解决方案的基础上,罗军展望了智算集群光互联领域的技术演进方向,为光产业未来发展提供了战略参考。

OCS光交叉技术方面,目前基于MEMS微镜、LC液晶、硅光的三条技术路线各有特点。MEMS微镜技术可实现上千个端口,且插损无明显劣化;LC液晶技术端口规模居中,适合100个端口以内场景;硅光技术切换速度快,但插损较大。未来OCS将沿着“百端口-千端口-更高性能”的路线演进,不仅端口规模持续扩大,切换速度也将从百毫秒级向十毫秒级、纳秒级跨越,同时通过外部OA等技术降低插损,进一步提升性能。

光模块领域呈现分场景演进态势。超节点短距离光模块从DPO到LPO,时延从100纳秒降至10纳秒,功耗大幅下降;从LPO到xPO,通过“光多跑、电少跑”的方式,解决电传输性能问题,同时大幅提升密度;未来OIO技术将进一步提升密度,满足超节点多方向、高密出口需求。参数面FR 2公里模块从112G向224G、400G、448G演进,400G场景下直调直检与相干技术将共存,448G场景下直调直检技术持续突破,相干技术下沉,以满足不同传输距离需求。

空芯光纤作为一种优势显著的光传输介质,在时延降低方面效果突出,但目前面临成本、性能与兼容性三大挑战。今年国内运营商OTT的采购中,空芯光纤价格昂贵,而降低成本需提升拉丝长度;性能上,空芯与空芯光纤的高性能耦合、抗弯设计等问题尚待解决;兼容性方面也需进一步优化。罗军认为,一旦这些问题得到解决,空芯光纤将在数据中心内乃至数据中心间实现大规模应用,为光传输介质升级提供新的可能。

写在最后

从行业发展规律来看,任何一项新技术从实验室走向大规模商用,都需经历技术完善、成本下降、生态适配的过程。光技术在智算集群领域的应用也不例外,随着OCS、光模块、空芯光纤等技术的持续突破,以及成本与兼容性问题的逐步解决,光产业有望在智算领域迎来更大的发展空间。对广大行业内厂商而言,亦需紧跟智算中心业务需求,加快技术创新与产品迭代,如此方能在这场算力革命中抢占先机,为我国智算产业的高质量发展夯实光互联基础。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销