C114通信网  |  通信人家园

资讯
2024/5/24 09:58

中国移动研究院段晓东:构建超万卡新型智算集群需要科学技术的创新突破

C114通信网  

5月16日,中国移动研究院副院长段晓东受邀参加2024世界电信日和信息社会日大会“智算融合创新发展论坛”,发表《大规模超万卡新型智算集群的思考与展望》主题演讲。

段晓东表示,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

段晓东在演讲中提到,当前大算力仍然是大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。然而在国外高端芯片断供的背景下,构建基于国产生态体系、技术领先的超万卡集群将面临诸多挑战,包括极致算力使用效率的挑战、海量数据处理能力的挑战、超大互联规模的挑战、集群高可用易运维的挑战以及高能耗高密度机房设计的挑战。

为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和芯合算力原生等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为了解决因机房、供电、散热等因素限制单体智算中心规模的问题,中国移动正在着力研究跨集群分布式训练场景,通过在模型算法、平台调度、传输承载等不同层级的协同优化,解决大模型长距离分布式训练的难题。

段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共同实现国产智算设施的又一次跨越式发展。

给作者点赞
0 VS 0
写得不太好

  免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141