C114通信网  |  通信人家园

资讯
2023/3/2 16:27

系统健康度评分能力,让故障隐患无处遁行

江苏移动  

随着业务系统云化、微服务化改造以及大规模向磐基PaaS平台迁移,运维人员需要精准布控的监控点数量也呈指数级增长,监控静态阈值的配置方式工作量庞大,且容易出现误告警现象,也不能随着业务变化自适应。同时,运维人员仅从指标波动趋势及告警情况上看,难以评估系统整体运行情况,还需要从基础设施、中间件、业务应用等多维度对指标进行综合分析,进而评定系统的整体健康度。

对此,江苏移动依托智慧中台构建了系统健康度评分能力,通过采集磐基PaaS平台的资源对象信息和指标、日志、告警数据,引入AI算法训练并构建异常检测模型,以树模型的可视化展示资源对象的健康度评分,捕获细节问题信息,显著提高了系统的巡检和诊断效率,帮助运维人员快速发现系统的故障和隐患。

能力介绍

系统健康度评分能力基于自动发现的手段快速识别系统资源对象的关系,并提供资源对象模型的权重配置,引入无监督异常检测算法、日志分析算法对资源对象的日志、告警、指标数据进行异常检测,具备可按照系统架构的分层结果呈现(主机、数据库、中间件、应用业务、模型)展示系统的健康度评分总览视图、问题列表清单和告警等功能。

能力优势

范围适用性广:提供数据采集、清洗、标注分析的整体流程适用于不同级别对象评估相关场景,如资源类、数据类、业务类等场景。

架构普适性高:提供封装的系统健康度评估的模型训练、调优、推理、发布等服务,形成适用于各个系统的统一评价标准。

算法易用性强:所使用的异常检测算法适用多种时序指标,日志分析算法适用多类日志,可适配不同业务系统。

应用成效

目前,系统健康度评分能力已在江苏移动及其他22个省公司落地应用。江苏移动在磐基PaaS平台应用该能力,对应用集群近3000个Pod实例状态的实时监测分析。该能力的应用,一方面优化了PaaS平台中原有的静态阈值监测机制,多维感知Pod运维流量异动,提高异常的快速识别和分析能力;另一方面借助AI模型提高系统巡检和分析的效率,业务系统每5分钟的运行情况评估工作由原来的4小时左右缩减至30秒,运维效率提升480倍,极大释放了人力成本。系统健康度评分能力利用大数据、AI算法等信息技术,深入运维场景,助力IT运维由传统模式向智能模式转型

给作者点赞
0 VS 0
写得不太好

  免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141