光通信
`
2026/1/22 16:34

腾讯付思东:算力需求爆发凸显网络带宽滞后性 全光互联提供破解新路径

0
0

C114讯 1月22日消息(艾斯)1月22日,在2026中国光通信高质量发展论坛首场线上研讨会“AI超节点互连架构演进:光互连赋能下一代智能算力底座”上,腾讯光网络架构师付思东发表了题为《智算网络光互联技术演进》的演讲,不仅系统梳理了AI行业当前发展的核心趋势,同时也就腾讯在Scale out和Scale up方面的架构创新实践进行了深入分享。

付思东谈到,从GPT-3到GPT-5,模型参数规模已从千亿级跃升至万亿级,训练算力需求相应从千卡级别急剧增长至十万卡级别。更为关键的是,随着思维链大模型(如DeepSeek)的出现,推理阶段的算力需求已达到传统模型的百倍以上。

这意味着AI算力消耗已贯穿模型训练与推理全生命周期,算力已成为AI时代的“数字水电”,其规模与增长速度直接决定了大模型的能力上限与竞争格局。

然而,在单节点算力持续爆发式增长的同时,网络带宽的提升却显著滞后。

数据显示,从2016年的Pascal架构到2024年的Blackwell架构,AI算力在八年内实现了约1000倍的增长;推理算力在过去四年增长32倍,训练算力增长16倍。相比之下,网络带宽在过去四年从200G提升至800G,仅增长4倍。

他表示,这种“算力如火箭攀升,网络如步行前进”的失衡状态,导致在万卡乃至十万卡级别的GPU集群协同训练时,节点间数据传输速度成为系统性能的关键瓶颈,严重影响集群整体效率与资源利用率。

架构创新与技术突破:Scale Out与Scale Up协同演进

为缓解算力增长与网络带宽之间的结构性矛盾,行业正通过两种典型组网架构——Scale Out与Scale Up进行系统化创新。

其中,Scale Out架构侧重于横向规模扩展,常采用Spine-Leaf两级网络结构,支持以“搭积木”方式将数千至数万张GPU组织成超大规模算力池。该架构注重低成本、长距离互联,其技术演进主要伴随网卡PCIe接口速率提升而推进。

Scale Up架构则追求在有限层级内实现更高的算力密度与更快的内部互联。例如,采用单层网络可实现512张GPU的高速直连,Scale Up带宽可达Scale Out的8倍甚至更高(在NVL72中可达18倍)。为支撑如此高的带宽需求,Scale Up采用3.2T乃至6.4T的高速互联技术更佳。

付思东介绍道,在Scale Out发展方面,腾讯在最初的200G一代用自研模块替代了商用模块,实现了系统的解耦与开放生态;到400G阶段后,腾讯通过自研硅光BR4模块,率先实现了全球的批量部署,降本20%,互联距离达到300米;在800G一代,腾讯则推出了LRO+FR4的架构,通过去掉接收侧的DSP,并且结合硅光的集成平台能力,实现降本20%,时延下降63%,互联距离扩展到两公里。

在Scale Up方面,腾讯在400G一代推出了AEC满足中小规模的Scale Up组网,但受限于铜技术的互联距离(仅为5米);到了800G一代,腾讯推出了LPO技术,通过光互联实现时延下降99%,成本降低25%,互联距离达到百米级。到了下一阶段的3.2T,腾讯积极探索基于硅光技术的进一步演进路径,并发现NPO技术可实现更高速率的带宽,同时能够实现更低的时延和成本,密度亦可实现超10倍的提升。

腾讯创新实践:构建开放生态,引领全光互联演进

在分析具体的演进路线决定因素时,付思东指出,硅光技术与NPO已成为推动网络性能跃升的核心技术路径:

在Scale Out方向,硅光技术通过高集成度、低功耗、低成本等优势,支持互联速率从400G向800G平滑演进,并显著延长传输距离。

“2024年,我们推出了自研400G硅光BR4模块,并实现全球最早批量部署。我们坚定地布局硅光技术,是因为硅光技术支持向LPO/LRO的平滑演进,且具有持续降本和扩展互联距离的优势。”他谈到,目前其BR4模块累计部署量达200万只,保持零失效记录。通过推动BR标准优化,实现了在维持系统性能的同时将芯片面积缩小20%,显著降低成本。在800G阶段,腾讯创新采用FR架构,通过集成MUX器件减少光纤用量,在芯片端增加激光器耦合器件的成本可控前提下,实现端到端系统成本更优。

在Scale Up方向,为应对高密度、低时延互联需求,传统铜缆方案距离受限,分布式光模块方案则面临数量多、运维复杂等挑战。单层高密全光互联提供了新的路径。

据付思东介绍,单个3.2T NPO尺寸只有光模块的1/3,但能等效于8个400G模块速率,由于仅需处理一个端口,大大降低了部署与运维工作量。同时,NPO通过将OE引擎部署在靠近主芯片的地方,大大降低了主芯片到OE之间的传输损耗,它能够支持线性架构向224G扩展,具有更低的成本,更低时延的优势。

面对NPO暂无标准支持、缺乏开放解耦基础的挑战,腾讯已联合阿里云等在ODCC发起3.2T NPO标准化项目,旨在推动应用场景、硬件接口、管理协议等规范制定。

“我们希望能够通过这一项目,为高性能的Scale Up组网探索出一条新的全光互联的道路,既保证算力对于互联网络的速率和规模要求,同时也能降低部署和运维难度,做到可用、易用和好用。”付思东谈到。


版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销