9月28日,由中国信息通信研究院主办的2024中国算力大会·智算集成服务论坛在郑州成功举行。论坛邀请了产业内权威专家代表,围绕“AI算力基础设施建设、算力平台服务”等议题,分享企业级人工智能应用实践成果。中国移动集团网络事业部处长蔡旭辉发表了题为《打造卓越智算运维新体系,推动AI规模应用》的主题演讲。蔡旭辉表示,随着人工智能技术的飞速发展,中国移动立足产品、服务、生态,构建了全栈算智融合新体系。
“中国移动采用智算中心“N+X”架构体系。其中N节点是用来满足全网跨区域、跨省和AI大模型训练,以及区域内AI训练、精调、并发业务的需求,X节点是面向边缘产品和私有化产品的需求。”蔡旭辉介绍到。中国移动在呼和浩特和哈尔滨建设了的超大规模智算中心节点,其中呼和浩特节点被评为央企十大超级工程。
中国移动集团网络事业部处长蔡旭辉 发表主题演讲
当前运营商业务已走进算力时代,区别于通用计算时代分层解耦的建设和运维模式,大规模的智算中心集群建设是极其复杂的系统工程。蔡旭辉列举了智算中心组网中的多个痛点,如模型并行计算带来的高频训练中断问题、硬件定位业务恢复时间长、上下层全栈可视难度大、跨组织协同响应难、多厂商设备联合调优难等挑战。
针对这些挑战,中国移动网络事业部秉持运维规范化、标准化和确定性的理念,构建了训练中断少、故障恢复快、服务支撑好的智算运营服务。包括重塑了智算运维质量文化,打造高可用架构方案,定义核心指标治理以及体系指标等,研发智能化的解决方案,进而提升运维效率。
在智算运维质量文化方面,高度重视AI智算运维人才的培养和培训,联合华为和合作伙伴构建了超过200人的专家团队,建立了体系化的智算人才培养机制。同时,打通智算运维从客户对接到故障处理的端到端系统,并构建总部、省公司、专业公司及客户的协同运维机制,实现数据层的可视,进而提升运维效率。
在智算架构方面,中国移动构建了构建端到端智算高可用架构,保障训推任务全流程的稳定性,并构建了AI任务全链路监控保障体系,提供120多种软硬件健康检查,分钟级集群故障定位定界,全方位助力智算集群管控调优。
在运维指标方面,中国移动围绕智算运维探索可靠性黄金指标,构建了80多个关键的指标体系。重点提升智算集群的模型算力运用率MFU,故障时长MTTR、长稳训练时长三个黄金指标,助力大模型训练任务高效稳定运行。同时,在运维服务方面,构建了中国移动算力运维平台,打造自主领先的AI+算力运维服务,采用SRE运维模式,根据运维场景化需求构建AI+全景观测、智算运维智能体等能力。目前该平台已经纳管通算智算设备近百万台,总体智算规模26.5亿FLOPS,日均消息处理量是110亿条,成为电信行业纳管规模最大的算力运维平台,支持中国移动智算中心的高效运维以及对客户的服务。
蔡旭辉分享了中国移动与华为等合作伙伴在提升大规模智算集群运维关键指标方面的合作成果,并介绍在全球运营商最大的单体智算中心——呼和浩特智算中心应用的智能运维方案,实现全域资源实时监控和故障快速定位。同时,中国移动还在智算中心网络故障诊断方面与高校深度合作,打造基于智算网络的AI全脑网络诊断智能体,覆盖故障监测与处理、性能优化、配置管理、流量分析与管理等场景,有效降低了智算网络的运维工作量。
最后,蔡旭辉倡议中国移动愿携手合作伙伴,共创中国智算产业繁荣生态,共同探索智能运维实践并分享创新成果,共同构建行业标准,合力攻坚共筑算力蓝图,加速推动AI大规模应用。