近期,中国移动在北京、重庆、湖北、青海、浙江、内蒙及福建七省市顺利完成业界首批IP网络智算互联关键技术现网试点。
近年来,随着生成式人工智能(artificial intelligence generated content,AIGC)大模型和智能计算应用的高速发展,对于智算企业到智算中心间大规模数据的传输、异地计算、存储和处理需求日益增加,主要涵盖存算分离、样本数据上传、分布式训练、推理下发这四大场景,其流量特征表现为大规模、周期性、大突发、高并发的“大象流”,对网络造成巨大冲击,IP广域网面临负载不均,拥塞丢包,带宽资源无法充分利用等问题。为解决上述问题,中国移动在“MATRIXES”技术体系下,提出面向企业入算场景的微流级负载均衡、分时分网调度、精准拥塞控制三大关键技术,本次试点对其进行了充分的实践和验证,对构建大运力、低时延、无阻塞的新一代IP智算互联网络具有重大参考和指导意义。
微流级负载均衡:通过新一代的负载均衡技术,将大突发高并发的大象流数据分担到多个SRv6 Segmelist网络路径上,解决传统网络设备负载分担不均的问题,在确保数据传输完整性的同时,有效降低网络拥堵现象,极大提升了网络的吞吐量和传输速度。
分时分网调度:为应对智算业务高并发大象流的大带宽传输需求,充分利用网络空闲带宽资源,分时分网调度技术,基于对网络运力的预测和管理,结合网络带宽的时空变化规律,通过灵活调整路径编排策略,对流量进行动态调度,为用户提供可敏捷弹性扩缩的运力服务,从而实现更高效的网络资源利用。
精准拥塞控制:为解决智算中心间互联场景拥塞丢包导致业务性能下降的问题,通过精准拥塞控制技术突破,实现网络拥塞提前发现、主动调整、拥塞范围不扩散等,从而有效控制拥塞。
本次现网试点工作由中国移动集团计划建设部牵头,中国移动研究院、设计院负责整体技术方案制定,中国移动集团网络事业部、7省公司、云能力中心负责技术验证工作。试点基于中国移动云专网架构与新平台路由器设备开展创新,实现了智算中心侧400G大象流在IP广域网100G 链路中的高效传输,不同网络路径的负载均衡精度控制在5%以内,带宽利用率从60%提升到90%,完全达到试点验证目标。
展望未来,中国移动将继续与产业各方紧密携手、开拓创新,共同推动 IP 网络智算互联技术不断发展演进,在超宽管道、低时延加密、主动拥塞避免等方面进一步深入探索研究,助力构建超越连接、突破性能、极低时延的智算互联IP网络,实现以网强算、以网促算,为 AI 智算业务的蓬勃发展注入新动能,为国家数字经济发展贡献坚实力量。