C114通信网  |  通信人家园

 
2024/12/16 10:03

江苏移动完成业界首个跨多DC智算无损组网测试,落地验证分布式智算协同训练技术可行

C114通信网  

近日,公司打造的业界首个多DC分布式、非对称、超百公里协同训练智算网络在江苏移动长三角云计算中心完成测试,在3DC总距离1000公里的场景下,跨域分布式训练性能达到单智算中心训练性能的95%以上,标志着多DC协同训练技术落地验证可行,并逐步向商用迈进。

算力是数字经济时代的核心基础设施,对促进经济增长,推动科技进步以及满足日益增长的数据处理需求具有至关重要的作用。随着大模型训练需求的持续增长,算力需求和单地域(DC)的算力不匹配问题日益突出,将多地域(DC)内的碎片算力集中起来提升算力利用率、训练更大的模型成了多智算中心算间网络发展的必经之路。

图片1.png

本次公司多DC分布式协同训练试点测试,通过3DC及以上的场景互联、从对称组网到非对称组网、从环形组网到链型组网,验证了多DC之间非对称算力协同训练和百亿、千亿大模型在训练过程中链路中断对训练性能的影响等,更加符合现网场景。试点测试结果表明,智算分布式协同训练解决方案已经具备技术可行性。

本次试点,通过3DC参数面拉远组网,以单DC最优性能配置为基线,使用Llama2-70B、GPT3-175B作为输入模型,对比了跨DC协同不同参数的性能变化,测试了分布式智算集群对大模型训练性能影响的关键因素,支撑未来区域化智算集群商用可行性。该方案通过弹性灵活调度、广域无损技术实现多个智算中心互联,满足跨DC分布式智算集群灵活扩展,支撑客户大模型训练和按需部署。测试结果表明,三DC总距离千公里场景下,跨域分布式训练性能下降5%以内。

未来,公司将携手产业伙伴面向更大规模、更长距离的分布式智算网络持续探索,坚持走出一条符合产业需求的智算发展之路,提高数字经济时代整体产业的竞争力。

给作者点赞
0 VS 0
写得不太好

C114中国通信网版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141(汪先生)。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;如有翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2025 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141