近日,在OIF(开源基础设施基金会)CFN(算力网络)工作组会议上,中国移动研究院牵头的异构混合训练技术子组通过立项评审,并获得OIF基金会及产业伙伴的高度关注与支持。
当前大模型训练任务基于同构集群完成,随着模型参数量剧增,存在两大痛点问题,一是大规模集群与单厂商绑定存在技术栈封闭和供应链风险,二是已建异构智算资源间存在“资源墙”难以聚合成池,导致混合集群资源利用率较低。为充分利用异构算力资源,构建智算融通生态,中国移动研究院牵头在OIF CFN工作组成立异构混合训练技术子组。
去年,中国移动研究院针对该技术已发布智算“芯合”异构混合并行训练系统1.0,其具备基于ITD算法的3D并行非均匀切分和基于GDR的异构芯片高速通信两大能力,可突破异构智算芯片间算力孤岛问题,实现大模型在多厂商、多代际、多类型的混合智算集群上的规模训练。
此次中国移动研究院在OIF CFN工作组成立的异构混合训练技术子组聚焦异构混合训练框架进行代码开源,旨在通过社区项目吸引智算产业上下游合作伙伴适配、共建面向多种类大模型及智算芯片的通用训练框架,实现构建高效、高可用的大规模异构混合训练技术能力。
异构混合训练技术架构
未来,中国移动将通过开源力量,与产学研用各界合作伙伴一起,推动不同厂家、不同架构异构智能算力间形成通用的异构混合训练框架,助力我国智算生态融通发展。
开源基础设施基金会(OIF)由全球187个国家100,000余名社区成员组成,是当前全球最活跃的开源基金会之一,现已孵化OpenStack、Kata Container、StarlingX等成熟开源项目。2022年7月,中国移动研究院联合国内外主流设备商、云服务商在开源基础设施基金会(OIF)主导成立“Computing Force Network Working Group”(算力网络工作组),旨在凝聚产业力量,打造算力网络关键领域的参考实现,降低产业准入门槛,加速推动算力网络技术与产品成熟。