6 月25日,由中国通信标准化协会TC628 标准推进委员会主办,WG3 智算运维工作组和黑龙江移动承办的万卡集群智能运维首期沙龙在中国移动哈尔滨智算中心成功举办。此次沙龙嘉宾来自于信通院、黑龙江省通信管理局、宁波银行、蚂蚁集团、华为、科大讯飞、南瑞瑞腾、中科海光等20余家单位,涵盖通信、金融、能源、制造、互联网等行业。
本次沙龙以“万卡赋智,重塑运维”为题,以“主题演讲+圆桌会议”为载体,邀请专家分别从先进经验分享、行业痛点聚焦、产学研深度融合三方面,分享智能计算基础设施运维迈向智能化的探索与实践经验,共同探讨智算运维的发展趋势与挑战。
万卡集群先进经验共享,协同构建高效运维体系
黑龙江移动从深入解读集团公司“五个一” 卓越智算运维体系,推出 "12821" 智算运维方法论,介绍集省专协同流程转变、机房现场标准化管理、主动运维能力提升和跨层跨域的定界处置方法论等工作探索,为超大规模智算集群运维提供了可复制的 “样板间” 先进经验。
蚂蚁集团分享了万卡集群模型训练异常分类、支撑手段等先进经验,主要针对模型训练、节点异常、调度异常等多场景的时间、空间诊断思路实践总结。
信通院介绍近几年IT运维领域的标准研究工作及成果,解读了《智算运维能力成熟度模型》系列标准,并指出未来将加快构建智算运维领域的标准生态,全力为行业的智算运维能力建设提供支持,助力产业行稳至远。
产学研深度融合 激活智算新质生产力
首期沙龙,通过 “理论研讨 + 实地参观”相结合的形式圆满举办,为政产学研各界搭建了深度交流平台,也为行业间业务发展提供合作交流机会。与会嘉宾围绕 “从训练到推理:智算运维服务的新变化与挑战”“从基座到生态:智算运维如何加速 AI 应用生态发展” 等议题展开圆桌讨论,达成多项共识。
本次沙龙的成功举办,标志着我国智算运维领域迈入标准化、协同化发展新阶段,中国移动(哈尔滨)智算中心在智算运维领域的卓越能力和经验分享的突出贡献得到社会各界认可。随着各方合作的深入,智算集群的高效运维将为人工智能大模型训练/推理、行业智能化转型提供更坚实的算力支撑,助力我国在全球智算竞争中占据领先地位。