C114通信网  |  通信人家园

资讯
2024/7/7 21:17

中国移动王瑞雪:跨智算中心互联需求凸显,IP+光融合是技术方向

C114通信网  九九

C114讯 7月7日消息(九九)全球智能算力需求快速增长,智算产业迈入了大模型时代,以GPU计算芯片和高速以太网交换网络为核心的新型智算中心(NICC)基础设施建设不断布局。

在近期举办的2024中国光网络研讨会上,中国移动研究院数据中心网络技术经理王瑞雪指出,AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”。

中国移动原创提出GSE技术体系,革新以太网转发机制,基于三大核心机制转变(从“流”分发到“报文”分发、从盲发+被动控制到感知+主动控制、从“局部”决策到“全局”调度),实现高精度负载均衡、网络层原生无损及低延迟。

王瑞雪介绍,GSE采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。

王瑞雪进一步指出,智算中心网络规模持续提升,带来高成本、高功耗等问题,且随着速率不断演进,电交换可能成为规模提升瓶颈。引入光交换机,形成光电混合组网是技术趋势之一,但同时也存在3大挑战:一是GSE与光电混合组网融合机制待明确;二是缺少流量模型与网络拓扑协同机制;三是缺乏光电混合设备统一纳管能力。

毋庸讳言,能耗是数据中心当前最大问题:交换容量提升80倍,功耗增加22倍。因此,全球云服务商加速800G商用部署,以应对日益增长的数据传输需求和优化数据中心基础设施。

王瑞雪介绍,800G以太网也是智算中心网络互联的重要方向。中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导提交10余篇技术需求及标准提案;主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,并主导通过20km/40km相干标准框架提案。

当前,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,通过网络能力可换取更大的集群规模;智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,碎片资源可通过网络能力整合。王瑞雪认为,当前应重点解决园区跨机楼互联和同城多局址互联问题,满足十万卡建设需求。但这又将产生新的问题:一是网络时延的增加(受限于物理极限),二是互联带宽剧增(受限于建网成本)。

王瑞雪总结说:“当跨智算中心互联需求凸显,IP+光融合是技术方向。”IP+光融合技术可简化互联设备形态,设备直出采光,简化组网方案,减少光电转化,降低转发时延,更好匹配智算互联需求,成为业界百公里智算互联主要技术路线。

给作者点赞
0 VS 0
写得不太好

版权说明:C114刊载的内容,凡注明来源为“C114通信网”或“C114原创”皆属C114版权所有,未经允许禁止转载、摘编,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。编译类文章仅出于传递更多信息之目的,不代表证实其描述或赞同其观点;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141