2023/12/5 19:54

中国工程院院士郑纬民：超算完全可用于大模型训练且极具成本优势

C114通信网

C114讯 12月5日消息经国务院批准，由科技部和河南省政府共同主办，以“5G变革共绘未来”为主题的2023世界5G大会将于12月6日至8日在河南省郑州市郑州国际会展中心举行。

围绕“强基韧链与引领带动”、“赋能产业高质量发展”，2023世界5G大会设置12个平行论坛，助力全球顶尖5G产业合作和资源整合。在世界5G大会正式开幕前夕，以“融合创新提升价值空间”为主题的“Tech Talk 2023 创新技术论坛”在今天率先拉开帷幕。

论坛期间，中国工程院院士、清华大学教授郑纬民院士应邀作了题为《支持大模型训练的三种算力系统》的主题演讲。郑纬民院士指出，目前支持大模型训练的有三种算力系统，分别为基于英伟达公司的GPU系统，基于国产AI芯片的系统，以及基于超级计算机的系统，三种算力系统各有优劣。

解决10大软件难题：国产AI芯片破局之路

郑纬民表示，英伟达GPU系统的优点是硬件性能好，生态也比较完善，所以大家都喜欢用。但问题在于中美博弈所引发的禁售风险；同时，英伟达GPU产品价格高，价格暴涨的同时还一卡难求。当然，这也给国产AI芯片一个难得的发展机遇，目前国内已经有30多家公司推出了国产芯片，“但用户不太喜欢用，核心问题就是生态不好。”

在郑纬民看来，如果国产AI芯片硬件达到国外芯片的60%性能，只要能把软件和生态做好，用户也是满意的，“如果软件和生态没做好，即便硬件性能再强，照样没人用。”

郑纬民总结了十大关键软件技术，分别是编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等问题。“如果把这些问题解决好，即使只有国外芯片60%的性能，国产AI卡也会大受欢迎。”当然，郑纬民也希望国内广大用户尽可能采用国产AI芯片，以用促建，以用促研，不断的给予正向反馈。

软硬协同设计：国产超算完全可以支持大模型训练

郑纬民指出，不止于GPU这种算力形态，超级计算机也完全可以用于支持大模型训练，但需要从源头做好软硬件协同设计。

目前，我国超算水平已经处于国际第一梯队，有14个国家一级超算中心，另外还有不少由地方和行业建设运营的超算中心。这些超算中心在科学计算上做得很不错，发挥了很大的作用，但是部分超算中心的算力利用率并不饱和，完全也可以用这些机器来做大模型训练。

“但利用超算来进行大模型训练，更要注重软硬件协同设计。硬件发展很快，过去一台机器，基本是CPU+内存+硬盘就可以，但是现在计算部件不只是简单的CPU，还有很多新的器件出现；软件方面，不论是人工智能应用软件，还是基于图数据的图计算应用，以及大数据应用，软件已和过去不一样，如何将软件和硬件更好协同起来非常重要。”

以郑纬民院士团队开发的“八卦炉”大模型为例，通过设计和优化，依托超算算力资源完全可以达到英伟达GPU平台的性能。除此之外，郑纬民院士团队目前已经把LLaMA大模型在超算上成功运行，国内的百川大模型等也已经成功运行，而且成本只需要英伟达平台的六分之一！

给作者点赞

0 VS 0

写得不太好

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

中国工程院院士郑纬民：超算完全可用于大模型训练 且极具成本优势

中国工程院院士郑纬民：超算完全可用于大模型训练且极具成本优势