随着人工智能等技术的快速发展,在政策和市场的驱动下,国内智算资源池建设呈爆发式增长,尤其运营商在全国各地布局多级算力资源池体系,需要结合网络优势充分发挥智算资源效益,“网效”与“算效”需要提升互促。传统的广域网技术与架构在承载智算业务流量时效率较低,微量丢包就将导致网络智算流量吞吐能力显著下降,造成算卡资源闲置浪费。智能IP广域网以高算效、差异化保障、云边协同、智能运维、绿色低碳和内生安全,成为IP广域网新的发展方向。
中国信通院作为国内权威的第三方检测机构,在智算技术研究与标准制定方面拥有深厚的积淀,基于企业用算的三大场景,组织制定了国内首个智能IP广域网关键技术及设备系统评估体系。测试评估项目重点面向企业海量数据入算、样本数据拉远训练、云边协同分布式推理三大用算场景,开展相应的行业评测,构建智能IP广域网的技术标准体系,推动IP网络快速向智能、高效、安全的智能IP广域网演进。
智能IP广域网关键技术及设备系统测试评估主要涵盖如下场景:
海量样本入算
本场景验证设备和网络的“大象流”识别和动态负载分担能力,对不同用户RDMA业务流精准流控、流级反压及多用户隔离能力进行测试,验证智算组网专线带宽可动态调整能力,及RDMA承载网络的有效吞吐率。
存算拉远训练
本场景验证设备和网络在不同模型和拉远距离下算效损失率,存算拉远训练期间用户训练数据不落盘,隔离用户间互不影响。
云边协同推理
本场场景验证云边协同拉远推理,在不同收敛比情况下评估算效劣化率,验证企业推理请求及响应原始内容在广域网及智算中心内不可获取,保障企业数据安全。
目前,华为基于新一代AI路由器的智能IP广域网关键设备及系统首家通过评估测试。测试报告显示,基于稠密模型LLAMA2-13B、多模态模型Qwen2.5vl-32B、CV类模型RESNET、MoE类模型DeepSeek大模型,完成了三大场景测试:
海量样本入算场景,具备“大象流”精准识别能力,可实现RDMA动态负载分担,避免拥塞,可灵活配置1G~100G任意专线带宽,开启样本入算高算效功能后,网络有效吞吐不低于90%。
存算拉远训练场景,支持租户级精准流控,实现网络拥塞“0”丢包,实测拉远400KM可以做到算效损失低于1%。存算拉远训练测试时将用户样本数据驻留本地存储池,通过广域RDMA拉远至远端智算中心内存训练,数据不在智算中心磁盘存储,并且多用户隔离互不影响。
云边协同推理场景,支持关键帧识别和加速技术,实测拉远200KM、收敛比160:1情况下,算效劣化小于3.2%。在云边协同过程中,本地训推一体机部署模型首尾层,远端智算中心部署模型中间层,Prompt由本地输入,Token在本地生成,通过智能IP广域网传输模型的中间层矢量化计算数据,实现了数据不出域,模型不上云,分布式训推全程安全,能够满足企业用算安全诉求。
此次信通院对智能IP广域网关键设备和系统的评估,目的是为了验证基于智算关键技术和设备搭建的实际网络算效吞吐等性能指标,为运营商和业界厂商提供重要的指标参考依据。从而满足政企用户对网络提供高吞吐、高效率、广域无损传输的算网一体化服务的迫切要求。加速推动以算力和数据为核心的新质生产力发展,赋能千行百业的数字化转型升级。
联系方式:
陈老师,18612228128,chenyunke@caicty.ac.cn