C114通信网  |  通信人家园

人工智能
2024/4/28 13:44

郑纬民院士:繁荣国产AI芯片生态,助力国产算力支撑大模型训练

C114通信网  九九

4月28日消息(九九)今天上午,以“算力网络点亮AI新时代”为主题的中国移动算力网络大会在苏州开幕。在大会主论坛上,中国工程院院士郑纬民介绍,支持大模型训练的三类系统分别是基于英伟达公司GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。

郑纬民指出,基于英伟达公司GPU的系统硬件性能好,编程生态好,但是价格暴涨,一卡难求;基于国产AI芯片的系统面临国产卡应用不足、生态系统有待改善的问题;至于基于超级计算机的系统,“当前有14个国家级超算中心,机器不是用得非常满,采用软硬件协同的设计在超算机器做大模型训练成为可能。”

郑纬民进一步指出,国产算力支撑大模型训练,国产软件生态需要做好几件事:

首先是编程框架,降低编写人工智能模型的复杂度,利用基本算子快速构建人工智能模型,例如PyTorch , TensorFlow。

其次是并行加速,为多机多卡环境提供人工智能模型并行训练的能力,支持数据并行、模型并行、流水线并行、张量并行等。例如微软DeepSpeed、英伟达Megatron-LM。

三是通信库,提供跨机跨卡的通信能力,能够支持人工智能模型训练所需各种通信模式,能根据底层网络特点充分利用网络通信带宽,例如英伟达NCCL库、超算普遍支持的MPI通信库。

四是算子库,提供人工智能模型所需基本操作的高性能实现,要求能够尽可能覆盖典型人工智能模型所需的操作,要求算子库能充分发挥底层硬件的性能例,如英伟达cuDNN,cnBLAS。

五是AI编译器,在异构处理器上对人工智能程序生成高效的目标代码,对算子库不能提供的操作通过AI编译器自动生成高效目标代码,例如XLA、TVM。

六是编程语言,提供异构处理器上编写并行程序的支持,要求覆盖底层硬件功能,发挥硬件性能,能够编写人工智能模型的基本算子(Operator),例如英伟达的CUDA,Intel的oneAPI。

七是调度器,提供在大规模系统上高效调度人工智能任务的能力,设计高效调度算法,提高集群资源利用率,例如Kubernetes(K8S)、华为ModelArts。其中,内存分配系统针对人工智能应用特点提供高效的内存分配策略,容错系统提供在硬件发生故障后快速恢复模型训练的能力,存储系统支持训练过程中高效的数据读写(检查点训练数据等)。

郑纬民强调:“国产AI芯片与业界领先水平存在一定差距,但如果生态做好了,客户也会满意,并且大多数任务不会因为芯片性能的微小差异而有明显感知。”

给作者点赞
0 VS 0
写得不太好

版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141