资讯
`
2025/9/11 11:53
《算力城域网白皮书(2025)》解读:华为AI WAN助力算力城域网开启新征程
0
0

近日,中国电信股份有限公司研究院在未来网络大会上推出了《算力城域网白皮书(2025)》,进一步明确了城域网络在面向算力业务新场景、新需求下需具备的网络架构和关键网络能力。本次印发的《算力城域网白皮书(2025)》对算力城域网应用场景、网络架构、组网方案和技术展开探讨,目的是积极推动算力城域网的相关技术研发和现网验证,最终通过该白皮书的发布汇聚行业力量,共同打造广覆盖、高弹性、超高可靠、智能化的算力城域网络。为此,特对此白皮书进行详细解读。

什么是算力城域网

随着人工智能等技术的快速发展和广泛应用,算力需求呈现爆炸式增长,中国电信积极布局算力基础设施,向政府、企业、科研机构提供就近的高效算力服务。面对企业用户使用算力时遇到的海量数据传输难,敏感数据安全保障难以及算力协同调度难等问题,电信研究院定义算力城域网以新型城域网络架构为基础,通过Spine-Leaf的Full-Mesh组网优势实现东西向南北向流量的无阻塞快速转发,构建智算中心与企业用户之间的安全高速通道。通过引入算力灵活调度、算力无损传输、精准流级调度、网络智能运营等能力,满足用算企业行业数据安全不出域、算力灵活扩展、海量 数据快速传输等关键诉求,面向千行百业提供高效、高安全、高性价比的算网一体服务。

算力城域网关键网络需求:网络弹性高吞吐,拉远推算效率不下降

大模型训练推理数据量庞大,而且数据产生和训练不在一个地点,TB/PB级的大数据传送效率低是目前运营商网络最需要解决的紧迫问题。企业普遍面临周期性数据传输带来的带宽配置难题:长期采用高带宽专线会导致闲置期资源浪费,而低带宽专线则因传输时延过长造成算力资源空转。另外在智算、超算等场景中常常存在大量的大象流,这类流量具有单流瞬时高速率(10M至100G)的特征。传统基于五元组哈希的负载均衡技术难以有效应对大象流,容易造成负载不均衡和网络拥塞。因此,算力城域网一方面需要具备网络级负载均衡能力,全面提升整网的有效吞吐量;另一方面网络需要具备高度的弹性与敏捷性,根据企业算力业务需求动态调度算力业务流的网络路径和专线带宽,提供持续稳定的数据传输服务。

为了提升智算数据传输效率,智算业务传输协议逐渐从TCP向RDMA协议发展。RDMA协议对网络丢包十分敏感,千分之一丢包导致模型训练速率下降50%。对于存算分离拉远训练、跨集群协同训练以及云边协同训推等场景,样本面和参数面的数据传输从AIDC内延伸到AIDC之间,传输距离可达上百公里,广域网络的流量拥塞和链路故障不可避免,从而加大了智算数据丢失的概率并影响模型训练效率。所以算力城域网需要具备企业用户到智算中心之间长距RDMA数据高效可靠的传输能力,保障模型拉远训推效率下降不超过5%。

华为AI WAN高算效广域关键技术突破传统网络技术瓶颈

华为AI WAN高算效广域方案通过SPFC精准流控、AFR流级调度以及RDMA双发选收等关键技术应对算力服务由数据中心机房向广域网延伸所带来的网络承载挑战。

RDMA数据长距高可靠传输:当网络中发生拥塞,算力城域网的网络设备以租户级业务为粒度对拥塞报文进行缓存,缓存超过水线时,以租户为粒度向上一跳网络设备发送反压信号直至流量发送节点,保障租户级的网络拥塞不丢包,实现了超百公里RDMA高可靠传输。精准流控技术实现了租户级拥塞控制隔离,解决传统PFC技术在广域网易引发头阻和拥塞扩散导致租户间相互影响的难题,为大规模分布式训推提供技术底座。另一方面, AI WAN高算效广域方案支持双发选收的技术,即发送侧同时发送两份相同数据,通过不同路径送到接收端。接收端收到两份数据后,通过芯片级技术实现Tbps级高速报文选收重排序,降低长距传输因光纤故障或误码导致数据丢包的概率。经现网实验局以及信通院测试机构验证精准流控以及RDMA双发选收的技术可以支撑智算拉远训练效率达97%以上。

大象流精准识别,网络级负载均衡:智算业务存在大量大象流与老鼠流,算力城域网部署精准流识别技术识别大象流,流级自适应调度算法基于网络实时状态对大象流转发路径进行流级调度,实现全局负载均衡,网络吞吐可达90%以上。流级自适应调度技术解决了传统广域网络中ECMP算法由于无法感知流大小,导致大象流、老鼠流哈希不均,造成链路忙闲不均,链路吞吐低的问题。

总结与展望

算力白皮书强调算力城域网是云化IP城域网面向算力新业态的演进,本质上是通过 “资源协同化、服务普惠化、技术生态化”,解决智算业务发展中的效率和成本问题。算力城域网不仅是支撑AI大模型、智慧产业等应用落地的 “基础设施”,更是推动我国从 “算力大国” 向 “智算强国” 跨越的 “核心引擎”。

当前中国电信联合华为基于AI WAN高算效算力网的关键技术在上海、浙江、广东等地围绕海量数据弹性高效入算、存算分离百公里拉远训练、百公里分布式推理等新型智算业务现网的验证,开启算力城域网的新协议、新技术探索。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销