5月19日,面向大模型训练用户数据的高安全需求,中国移动研究院原创提出基于HIC-OTN(Hitless Intelligent Computing OTN,无损智算OTN)的新型存算拉远技术架构,并联合中国移动湖北公司、华为技术有限公司在中国移动智算中心(武汉)完成了业界首次HIC-OTN承载存算拉远240公里现网技术试验,构建了用户数据本地化的高安全大模型训练新范式,在基于流水并行(PP)的千亿级参数大模型现网240公里智算互联下实现了等同单节点训练效率99%以上的高效训练,是探索智算中心技术和业务应用发展的重要里程碑。
伴随大模型技术的跨越式发展,千行百业的智能化转型升级需求爆发涌现。但是,大模型训练的算力需求越来越高,国内外大型科技公司投建超万卡甚至超十万卡集群,不仅建设投入成本高,还需要破解提升大规模算力使用效率的技术难题。广大中小微行业用户难以跨越自建大型智算中心的投入和技术门槛,而租用智算服务又面临自身私密数据传输至外部智算中心进行大模型训练的安全风险,导致迫切的AI赋能需求与应用落地规模的严重失配。
中国移动研究院提出了基于HIC-OTN的存算拉远原创技术架构,在用户侧部署“微算力”作为数据训练的入口,将训练流程进行切分,用户数据仍存储在本地,仅通过HIC-OTN传递模型训练中间值至服务商智算中心的“大算力”进行训练,同时满足了用户大模型训练的低成本、高安全需求。其中,面向存算拉远后对传输网络的高可靠需求,创新HIC-OTN无损传输机制,重构设备转发和存储功能,实现由传统OTN保护倒换50ms业务中断到“0丢包”的性能提升。在此次业界首次HIC-OTN承载存算拉远240公里现网技术试验中,在用户侧部署16张GPU卡作为千亿级参数大模型PP训练的入口,在运营商智算中心部署48张GPU卡进行集中化、规模化训练,相距240公里的两端通过800G HIC-OTN进行大带宽、无损互联,拉远后的协同训练效率达到等效单集群训练效率99%以上。
中国移动研究院段晓东副院长表示,基于HIC-OTN的存算拉远原创技术架构是面向中小微行业用户大模型训练需求的全新探索,有望形成智算普惠发展的技术和应用新范式,本次试验基于HIC-OTN新型技术体系在超大带宽、超低时延、超高可靠光传输的技术优势,训练效率等同单节点训练99%以上,实现了用户侧“微算力”与服务商“大算力”的高效协同。
中国移动面向AI赋能千行百业,持续推进原创技术创新和发展。本次试验有力探索和验证了基于HIC-OTN的存算拉远技术架构的可行性和先进性,后续将继续推进产学研多专业在智算协同光互联技术方面的深度协同,以构建技术先进网络助力AI高速发展。