C114通信网  |  通信人家园

人工智能
2024/4/28 13:20

郑纬民院士:综合考虑,构建基于国产AI卡的万卡大模型训练平台

C114通信网  九九

4月28日消息(九九)今天上午,以“算力网络点亮AI新时代”为主题的中国移动算力网络大会在苏州开幕。在大会主论坛上,中国工程院院士郑纬民指出,人工智能对算力产生爆发式需求,模型研发、模型训练、模型精调、模型推理都需要算力,算力存在于大模型生命周期的每一环。

郑纬民进一步指出,构建基于国产AI卡的万卡大模型训练平台需要考虑到几个问题:

一是半精度运算性能与双精度运算性能的平衡

设计中不仅要考虑半精度运算性能,还要考虑双精度运算能力,双精度与半精度运算性能之比为1:50-100为宜。根据科学计算(AI For Science)和大模型训练的发展趋势,提出了变精度平衡设计的思想,为适应科学计算和更广泛的AI算法和应用提供了保障。

二是网络平衡设计

网络设计不能针对CNN算法,还需考虑极大规模预训练模型对系统的需求。大规模预训练模型需要高带宽低延迟网络。并支持数据并行,模型并行和专家平行模式。

三是体系结构感知的内存平衡设计

一方面访问内存的请求使网络拥塞,降低吞吐量,反映到应用程序上表现为访存性能显著下降;另一方面,多个访问内存的请求可能访问同一存控对应的内存空间,负载不均,存控需要顺序处理访存请求。

四是IO子系统平衡设计

需要支持检查点,增加SSD。另外,系统的本地nvme ssd仅通过本地文件系统访问,限制了其应用范围,需要将每台服务器上的快速本地nvme整合成应用可见的全局分布式文件系统。

“大模型基础设施平衡设计的几点考虑做得好,别人要用1万块卡,我们用9000块卡就可以了。”郑纬民说。

给作者点赞
0 VS 0
写得不太好

版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141