当下,AI正在焕醒全行业创新视角,智算系统的连续、稳定运行至关重要。但据一份关于LLaMA 3的官方论文报告显示:万卡集群平均每3小时故障一次,其中10%的故障因网络引起,而由光模块/光纤引起故障的概率达到8%。但网络系统故障原因“盘根错节”,排障往往需要耗费数小时甚至数天,这导致AI时代下的网络运维工作更加复杂。
那么,如何让网络运维跟紧智能化演进步伐?如何对故障率较高的光模块/光纤状态进行监测和预警?如何端到端提升AI网络效率?
元脉网络智能运管平台ICE 打造光链路智能运维新功略
智能运管平台ICE集成了元脉网络自研“光链路监测小模型”,该模型以完整的“本端光模块-光纤-对端光模块”监测链条为基础。并通过神经网络预测、削顶双高斯混合数学建模、时间序列分析等多种方式进行联合决策,实现对光纤/光模块部件的全局监控。打破被动防御的桎梏,是业界首个具备光链路主动守护能力的纯软件监测模型,无需其他硬件、测试仪器等设备的辅助,部署更容易、资源占用更少、响应速度更快。

① 信息多维度采集 预测结论更精准
ICE通过收集光模块的收发光功率、电压、电流、温度、纠前BER(Raw Physical BER)、纠后误码数(Effective Physical Error)、高阶(13阶及以上)FEC Symbol Error等参数进行分析,提高预测结论的精准度,为智算系统的连续运行提供保障。
② 独创轻量化算法模型 运维工作更稳妥
ICE内置80KB的自研轻量化“光链路监测小模型”,使运维工作不依赖外网环境,也可在不中断业务的前提下完成在线升级,摆脱外部模型资源牵制,节约算力成本,让AI网络运维工作“轻装上阵”。
③ 独立全景图界面 故障分析更立体
在界面展示设计上,ICE采用“全景图”的设计思路,可动态展示光模块的健康状态、故障位置、故障原因等信息,真正实现运维工作的全面可视。
④ 预警分级提示 障前干预更即时
ICE可提前对光模块异常原因进行分级,并在全景图中以不同等级的“告警标识”进行提示,方便用户依据优先级进行提前干预,提高运维效率,降低运维成本。帮助客户实现从“被动修”到“主动防”的转型,大幅提升智算系统的有效训练时间比(ETTR)。
AI赋能未来 互联构筑基石
作为AI时代网络创新引领者,元脉网络可以为用户提供面向AI时代的智算中心、数据中心、边缘网络等全栈网络方案。并坚持可靠、开放、智能的发展理念,持续深化自身在技术创新、场景创新、合作创新上的能力,为AI时代算力、数据价值的释放,打造坚实互联基石。







































