8月18日,由工业和信息化部、宁夏回族自治区人民政府共同主办的2023中国算力大会在宁夏银川举行。本届大会以“算领新产业潮流 力赋高质量发展”为主题,举办开幕式、主论坛、分论坛、“算力中国”创新成果展等多项重要活动,开展高峰对话和高端研讨,全方位探讨算力基础设施发展趋势,发掘算力领域达到全球领先水平的基础理论、创新技术、方法模式和平台应用的项目。
在当天“大模型时代下的AI算力新基建”分论坛上,华为技术有限公司数据中心高级专家赵波通过《算领未来,重构新型算力基础设施》的主题发言,分享了大模型时代下算力基础设施面临的挑战与重构。
图 华为赵波《算领未来,重构新型算力基础设施》主题发言
随着AI应用的发展,用户角色由最初的内容消费者,逐步转变为一次内容生产者,到目前的二次内容加工者;AIGC时代,用户只需贡献提示词,内容将完全由AI完成。由于内容创作所需的技能、时间和成本远小于人工,各行业AIGC应用蓬勃发展,全面影响个人及企业,而AI需求随着神经网络模型变得越来越复杂和庞大,训练这些模型所需的算力也在呈现指数级增长,这使得2030年智能计算增长500倍成为现实。华为认为面向智能计算时代,对算力基础设施的要求至少有三个方面的挑战:首先是服务器芯片散热设计功耗的增加,智能计算的GPU/NPU芯片散热设计功耗可达700W,数倍于通用计算芯片,由此带来局部元器件散热的问题该如何解决;其次是单机柜功率密度会由传统的2~8kW增加到16~65kW,与之配套的配电间面积将变得越来越大,严重挤占IT机房面积,当机架功率密度进一步提升至65kW,配电间面积甚至变成IT机房面积的两倍以上,严重挤占IT机房“得房率”;最后是快速发展的AI应用对机架的突发性需求,如ChatGPT仅用2个月时间就发展了1亿用户,相比传统数据中心承载的政企、传统互联网等预见性比较高的业务,如何在短期内快速满足算力基础设施的扩展需求,是一个现实的问题。
针对上述挑战,赵波分享了华为在面向智能计算时代,如何重构新型算力基础设施方面的探索和实践:智能计算带来多样化算力需求,以液冷为主、风冷、水冷组合的数据中心多样化制冷系统成为必须,冷板式、浸没式和喷淋式三种国内目前主要的液冷技术路线,华为冷板式液冷方案具有国产化程度高、产业链成熟、成本低、可靠性高等优势,最高支持66kW的单机柜功率密度;华为间接蒸发冷却方案作为多样化散热方式下的风冷方案,具有分布式结构、易维护、最大程度利用自然冷源等特点,结合外界气温和负载所需冷量,动态调节“干模式、湿模式、混合模式”三种工况,极大减少机械制冷;华为开发的高密电力模块融合了从中压变压器到负载馈线端的全功率链路,通过创新的融合架构和超高密的UPS集成,可大幅提高供电效率至97.8%,同时节省配电间面积40%。华为将建筑行业的装配式钢结构方案引入数据中心建设,实现预制化钢结构结合模块化机电设备,TTM缩短50%,不但有快速建设的优势,其抗震等级、安全性都得到了充分证明,同时完全符合国家绿色可回收建筑标准。未来数据中心机房以液冷为主,多样化的散热方式并存。随着机柜功率密度的提升,配电空间的占比逐步上升,甚至超过IT设备的空间,对电力模块的高密化提出了要求。为了加快数据中心的建设周期,模块化、预制化成为必须,同时,将钢结构主体引入数据中心不但可以加快建设周期,还因支撑大跨度横梁而有效提升IT机柜部署数量10%。
最后,赵波表示,算力将真正实现对人力和脑力的替代,成为人类能力的延伸和推动社会进步的变革性力量。在奔涌而来的“算力时代”,希望通过行业交流更好促进创新方案的孵化和落地,为中国算力基础设施进步贡献力量。