C114通信网  |  通信人家园

资讯
2024/4/30 18:49

中国移动发布《面向超万卡集群的新型智算技术白皮书》,助力智算基础设施迈向新台阶

C114通信网  

4月29日,在中国移动算力网络大会-算力网络未来产业暨联合体创新论坛上,中国移动重磅发布《面向超万卡集群的新型智算技术白皮书》(简称 “白皮书”),国务院国资委科技创新局副局长贾兴元、中国移动副总经理高同庆联合华为中兴新华三、中科曙光、浪潮、超聚变等合作伙伴出席发布仪式,共同见证新型智算技术迈向新台阶。该白皮书由中国移动研究院专家团队牵头撰写,凝聚了中国移动和产业伙伴在超万卡集群建设方面的技术攻关和实践经验,是业界首部系统性阐述超万卡集群核心设计原则和关键技术的白皮书。

自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮,各行各业加速从“+AI”向“AI+”转变。随着模型参数量从千亿迈向万亿,大模型对底层算力提出更高要求。当前,智算集群的规模以千卡为主,且多基于英伟达GPU构建,万卡甚至超万卡集群的建设还处于初级阶段,业界普遍认为万卡集群将有助于进一步压缩大模型训练时间,实现模型能力的快速迭代。基于万卡集群实现大模型高效的训练,并长期保持训练的稳定性,是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。

中国工程院郑纬民院士表示,“基于国产系统构建万卡集群,虽然很难,但很必要”。为了助力国内智算设施向万卡规模演进,本白皮书提出超万卡集群的五大核心设计原则:坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展。此外,白皮书进一步从集群高能效计算技术、高性能融合存储技术、大规模服务器间高可靠网络技术、高容错高能效平台技术和新型智算机房设计等五个方面全面阐述了超万卡集群建设的核心技术要求,为国内智算基础设施的建设提供技术建议。

面向未来,中国移动正大力推进GPU高速卡间互联全向智感OISA、远距跨集群训练、自动化分布式训练框架等技术的快速成熟,为万卡集群的创新突破打下坚实的基础。

中国移动践行央企责任使命,全面拥抱“AI+”时代,通过白皮书发布,凝聚产业共识,与业界一起应对超万卡集群带来的前所未有的挑战,共同牵引AI产业全面升维,助力新质生产力动能跃迁。

(扫描二维码阅读原文)

给作者点赞
0 VS 0
写得不太好

  免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141