C114讯 6月8日消息(隽畅)近日,由CIOE中国光博会与C114通信网联合推出的“2023中国光通信高质量发展论坛”系列活动——“数据中心光互连技术研讨会”成功举办。美团光网络架构师岳树烨应邀出席会议并发表题为《光模块故障预测》的报告。
岳树烨表示,企业对高效运维和测试技术需求日益迫切,通过激光器老化机器学习建模,可以实现模块健康度预警,提前识别,快速定位,降低运维成本。
借助AIOps提升企业业务能力
随着产业规模不断扩大,需要常态化运维的网络节点规模已达到上万级别,且链路数目达到几十万级别,保持规模化网络的稳定可靠成为一大挑战。将智能算法引入现有网络管理平台,实现数据驱动的网络闭环系统,将成为解决运维效率低下、定位成本高昂现状的有力途径。
然而,现有技术仍待与场景结合,存在异常检测误差大、故障网元定位难、计算响应不及时等限制,难以用于特定条件。
“针对上述情况,构建具备容错能力的网络已成为当前的重中之重。目前,一些通用的网络平台已经实现了基础的网络异常诊断和故障定位功能,但受运行环境、品牌、型号等多维环境影响,工作效率低、误差大。”岳树烨指出,大规模网络下,通过光模块激光器的监控关键指标可以预测故障的发生时间,减少运维⼈员压力,美团开展光模块故障预测研究有三大目标。
一是异常主动发现,故障预测。利用机器学习分析告警阈值,网络、设备、光模块、光传输等更多精细特征指标异常发现及在线趋势预测。
二是自我诊断,故障定位。结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势。
三是智能联动,快速通告。联动失效告警、自动隔离、工单派发、效果验收、业务恢复全链条的故障自动化处理。
实现光模块故障预测的三大核心
从实际情况看,激光器故障在有源类产品故障中占比较高,光模块单体故障的90%以上。增加故障预测可提前评估风险,降低运维复杂度,优化全链路系统。那么,光模块故障预测要如何实现呢?
岳树烨介绍,首先要通过“针对异构监控数据的深度清洗和特征提取方法”与“基于状态检测的激光器异常建模和故障预测”实现小时级激光器异常检测和故障预测。然后,利用“面向真实网络的算法验证平台”,以仿真数据进行有效性、可用性、先进性检验,继而将真实数据接入检验。
具体而言,由于激光器原始监控数据中存在噪声数据较多、特征维度过大、数据集不平衡等情况,将导致预测精度降低。因此,要通过多维统计分析、深度数据清洗、上下采样技术、动态特征工程,对数据进行预处理,从而实现高效特征提取。
在基于状态检测的激光器异常建模的初期,要率先构建区分正常和异常激光器的状态检测模型并生成动态阈值,一旦检测到出光功率变化率大于异常阈值则激发寿命预测单元。
针对正常老化模型,可采用激光器的正常历史数据进行建模,预测激光器一天后的出光功率,当出光功率低于标准规格时则上报⻛险;针对突发异常模型,根据突发异常前一段时间的历史数据进行建模,当出光功率变化率大于计算阈值时激活该预测单元,计算异常发生概率及状态分布。
“为实现异常检测和故障定位的算法的有效性与可靠性,就要结合系统和模型在万级规模网络仿真平台和多拓扑环境里进行综合测试。”岳树烨表示,测试平台的部署分为三个阶段。首先是经典网络布局模式下的仿真测试平台,其次是VPC网络布局模式下的仿真测试平台,然后是仿真节点与实物并存的半实物测试平台。完成上述工作后,将基于美团真实网络环境进行部署与验证。
会上,岳树烨呼吁产业链上下游共同关注器件稳定性,携手建立有效性、可用性、先进性并存的故障预测体系,以提高产品的稳定性为前提,实现终端用户、模块/设备商价、芯片厂商之间的三方共赢。