专题
2026/4/16 14:21

基于端网协同的智算中心智能运维关键技术研究与实践

0
0

本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部

摘要:为应对大规模智算中心运维复杂、性能保障难的挑战,研究基于端网协同的智能运维关键技术。以某省联通端网管控智能运维平台为例,分析精细化状态监测与告警、大规模网络拓扑发现与“同轨拓扑”校验以及基于改进模拟退火的AI-DCQCN 自适应拥塞控制等技术。结果表明,该方法能实现计算与网络资源深度关联分析与故障诊断,自动化拓扑校验保障网络架构正确性,AI-DC-QCN技术可显著提升RDMA网络带宽(约20%)并降低时延。

关键字:智算中心,智能运维,端网协同,拓扑校验,拥塞控制

doi:10.12045/j.issn.1007-3043.2026.03.004

1 概述

1.1 研究背景与意义

近年来,以大语言模型为代表的人工智能技术飞速发展,并快速渗透至社会各领域。其模型参数与训练数据规模的指数级增长[1],引发了对计算能力需求的爆炸式增长[2]。为满足此需求,全球掀起建设智能计算中心(简称智算中心)的热潮,旨在提供大规模、高性能算力基础设施[1]

智算中心有着不同于传统数据中心的显著特征:超大规模计算集群(如“万卡集群”[2])、高性能互联网络(基于 RDMA 技术的低时延、高带宽、无损以太网RoCEv2[3])及复杂长周期的 AI 训练负载[2]。这些特征给智算中心运维管理带来了严峻挑战[2]。在规模与复杂性方面,对海量异构设备(GPU服务器交换机、DPU等)的管理、状态监控和故障定位难度剧增。在性能与稳定性方面,AI 训练任务对网络时延、带宽和零丢包极为敏感[2],任何微小网络抖动、拓扑错误或拥塞都可能导致计算效率大幅下降甚至任务失败[4-5],RDMA网络自身的复杂性(如 PFC 与拥塞控制的交互[6])也增加了稳定运行难度。在运维效率方面,传统依赖人工经验、被动响应的运维模式难以满足快速部署、高效优化和及时排障的需求。

在此背景下,研究和构建面向智算中心的智能化、自动化、端网协同运维系统已迫在眉睫。“端”指计算节点(服务器、GPU、网卡等),“网”指网络基础设施(交换机、链路等),端网协同旨在打破计算域与网络域壁垒,实现状态统一感知、问题智能诊断和资源联动优化。此类对智能运维系统的研究与实践,对保障大规模 AI训练任务高效稳定运行、最大化智算中心投资回报率、支撑国家人工智能战略发展具重要理论意义和实践价值。

1.2 国内外研究现状

国内外已开展大量针对数据中心及高性能计算集群运维管理的研究,相关技术正逐渐向智能化、自动化演进,成为AIOps研究热点。

在状态监测与告警方面,传统 SNMP 轮询难以满足智算中心对实时性和粒度的要求,相关研究转向基于流式遥测、gRPC 等技术的精细化、高频数据采集。机器学习被应用于异常检测、根因分析和故障预测。部分研究探索通过大语言模型构建网络管理助手[7]。然而,如何有效关联“端”(如 GPU 内部状态)与“网”(如 RDMA 网络参数)的细粒度指标,进行跨域深度诊断仍是挑战。

在网络拓扑管理方面,网络拓扑的准确性至关重要。此方面的研究包括利用 LLDP、BGP-LS 等进行物理和逻辑拓扑自动发现[8]以及在 SDN环境下由控制器统一管理拓扑信息[9]。但在大规模智算中心场景,如何高效地进行拓扑一致性校验(规划与实际对比),特别是针对 AI 集群特有的“同轨”连接等特殊优化拓扑的自动化校验,相关研究尚不充分。

在 RDMA 网络优化方面,RoCEv2 作为主流技术,其拥塞控制机制是研究热点[3,10]。DCQCN 是被广泛应用的基础算法,但其静态参数的局限性日益凸显[2]。虽有 HPCC、TIMELY 等改进方案,但部署时可能需修改硬件或协议栈,存在实现复杂度和成本高的问题[11]。利用 AI/ML 方法自适应优化 DCQCN 参数成为更具实践性的探索方向,但设计低开销、高效率、鲁棒性强的在线优化算法仍是关键。

在端网协同与 AIOps 集成方面,端网协同[12]与AIOps[13]的集成是重要趋势,但能全面覆盖监控、拓扑、拥塞控制等多方面,并实现深度端网协同的一体化智能运维平台,特别是在大规模 RDMA 智算中心场景下的实践案例和深入研究仍相对较少。

1.3 研究目标与创新点

本文旨在研究基于端网协同的智算中心智能运维系统关键技术,并以“某省联通端网管控智能运维平台”研发实践为例进行阐述和验证。具体研究目标包括:精细化、关联化的端网状态监测与智能告警机制;大规模智算网络拓扑发现与一致性校验技术,包括“同轨拓扑”等 AI 集群特有的校验方法;基于 AI 的RDMA网络自适应拥塞控制技术。

本文主要创新点如下:第一,提出一套面向 RDMA智算中心的端网协同智能运维框架并进行了实践,该框架整合了关键技术,强调计算域与网络域的联动;第二,深入研究并验证 AI-DCQCN 技术的有效性,展示改进模拟退火算法动态优化 DCQCN 参数提升网络性能的成效,提供低开销、易部署的 RDMA 网络优化方案;第三,聚焦智算网络特有的运维痛点,重点研究“同轨拓扑校验”等针对 AI集群优化需求的特定技术;第四,对基于“某省联通端网管控智能运维平台”案例进行分析,使研究内容更具落地性和参考价值。

点击查看全文(PDF)>

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销