C114通信网  |  通信人家园

资讯
2021/4/27 14:59

使能运维智能化:华为AIOps让电信网络轻装上阵

C114通信网  蒋均牧

C114讯 4月27日专稿(蒋均牧)数字化浪潮汹涌而至,越来越“重资产”的电信网络,如何才能轻装上阵?华为以AIOps使能服务给出了答案。

所谓AIOps,即智能运维(Artificial Intelligence for IT Operations),指的是通过大数据、人工智能技术解决IT运维问题。这个最初由Gartner 2016年提出并定义、起源于算法IT运维(Algorithmic IT Operations)的概念,在今天已经成为了一个非常火爆的话题。

在将AIOps应用于电信网络方面,华为显然有着独到的视野与优势。一方面,华为深耕ICT行业多年,对于电信业务以及网络的“规、建、维、优”有着深刻的理解和丰富的实践;另一方面,这家公司在各种数字技术上长期投入,具备有全栈全场景的人工智能能力。

华为开发者大会2021(Cloud)期间,华为NAIE AI模型与训练服务部部长杨建接受了C114等媒体的采访,就电信网络运维所面临的挑战,以及华为NAIE AIOps服务的能力、进展和成功实践作出分享。

数字经济时代,AIOps势在必行

牛津经济研究院的《数字溢出,衡量数字经济的真正影响力》报告指出,在过去三十年里,数字技术投资每增加1美元,便可撬动GDP增加20美元;数字化技术的长期投资回报是非数字化技术的6.7倍,数字经济的增速是全球GDP增速的2.5倍。传统行业可以借助“+智能”引擎,实现数字溢出最大化。

“数字化”业已成为世界范围新一轮技术革命与产业变革的焦点,全球已有50多个国家制定了数字化发展战略,我国亦发布了一系列相关政策。5G商用和新冠疫情刺激下,更是加快了生产消费线上化、经济运行数字化乃至社会治理智能化的进程。

电信网络作为“底座基石、行业动脉”,担负着将数据、算力输送到社会各个角落的职能,重要性日益彰显。与此同时,伴随网络基础设施的升级、联接对象的变化和所承载业务的骤增,网络问题复杂化与业务质量高要求成为了数字经济时代两大挑战,运维能力的演进将是电信网络能否持续发挥效能的关键因素。

Gartner调研发现,当前,60%运营商的运维系统处于割裂状态,致使新功能上线周期长;75%的问题通过用户投诉发现,运维模式被动;运维人员90%的时间都用在识别故障发生的原因上,人工积累的经验难以应对网络复杂化带来的新问题。

在这样的背景下,传统以人力为主的工具、流程、模式变得难以跟上运维转型的脚步,已经有63%的电信运营商开始投资人工智能、大数据分析等技术,实现故障“自愈”与进行主动维护。AIOps被广泛视作一项关键手段——其核心价值就在于由人工智能取代人力决策,快速给出故障处理建议,或者提前规避故障。

但在硬币的另一面,人工智能技术的应用仍面临技术门槛高、投入产出难、数据准备度低等挑战。2019年,企业人工智能实际应用率为19%,较上年仅增长了5%,远低于行业23%的预估增长。单以电信网络运维智能化本身而论,亦存在人员技能缺乏、开发周期较长等痛点亟需攻克。

华为AIOps让开发更简单,应用更高效

“我们的目标就是让网络人工智能开发更简单、应用更高效,从而支持运营商及合作伙伴快速降低门槛,更好地应对瞬息万变的市场需求。”杨建谈到。

2019年4月,华为iMaster NAIE正式对外发布,同时NAIE亦是华为自动驾驶网络(ADN)的人工智能引擎,AIOps使能服务则是其中的核心组成。基于三十余年的ICT专业积累,经过“点-线-面”的运维智能化能力拓展,华为目前已经构建起完善的AIOps框架,基本完成电信网络运维的全流程覆盖。

据介绍,华为AIOps架构包含数据管理层、原子能力层、编排层和应用层四个层面,相对应地提供四大价值能力。

首先是多场景的数据采集治理:华为AIOps预制数据采集治理能力,提供一站式的数据采集、解析、治理等基础工具链,以及智能辅助数据标注能力,从源头上提升数据质量。在数据产生上,支持通用接口采集、通信领域端管云数据采集,可与30多类网元、100多种主流设备自动对接;在数据治理上,内置10多种通信业务场景治理模板,可节省90%数据准备时间;在数据标注上,通过智能辅助,可提升10倍标注效率、降低80%标注成本。

其次是丰富的人工智能原子能力:作为最核心的竞争力,华为AIOps沉淀核心人工智能资产,采用自主研发+生态合作相结合的方式,提供数字化基础组件,不仅提高了人工智能应用开发效率、降低开发门槛,也避免了公共能力的重复开发所造成的资源浪费。当前,华为AIOps能够提供超过20种人工智能原子能力,涉及预测、检测、诊断、识别等运维全场景,支持多种类型数据,具备广泛的适用性,且开放生态合作。

第三是灵活的组合编排与DevOps能力:运维场景灵活多变,如果人工编码开发不同组网的人工智能应用将极为耗时耗力,华为AIOps提供零编码流程编排能力,针对不同场景,只需从组件库中拖拽数据及原子能力进行组合,即可完成应用场景端到端的图形化编排,并支持进行业务泛化的参数配置,大幅提升应用开发效率。同时,其编排框架提供数据可视化服务,支持轻松按需搭建可视化大屏,还集成了RPA功能,实现跨系统工作流程自动化对接。

最后是开箱即用的APP:华为AIOps针对典型运维场景,提供10多类开箱即用的APP,包括KPI异常检测与分析、IT应用健康监控分析等,支持公有云和私有云部署、云地协同,还支持合作伙伴自行开发APP和一键发布到华为人工智能应用市场上。

服务超110个现网局点,成功实践解读

经过一年多时间发展,华为AIOps使能服务赢得了众多运营商的青睐,进入到规模应用阶段。截至今年1月份,已应用于运营商网络、园区网络、数据中心和IT应用四大领域,服务110多个现网局点,管理10万多个KPI,核心API月调用次数超过4.1亿次,每天处理千万量级的告警和3T的日志。

在采访中,杨建还介绍了华为AIOps一些实践案例。以无线接入智能故障管理为例,无线网络包含无线、传输、动环多个环节,一旦出现故障,告警量大、人工派单效率低、工单准确率差;同时跨域定位难,电力等问题会导致各域都派单,依赖跨部门专家协同,效率低下。借助华为AIOps的能力,可以显著提升根因定位效率、消除重复无效派单、缩短定位定位时间和恢复时长。在某运营商的应用中,早在2019年7月就能减少10%的工单,提升监控室30%的工作效率。

核心网KPI异常检测方面,运营商普遍面临的挑战包括,核心网重复故障少、定位难、故障分析耗时较长;人工设置阈值工作量巨大,且KPI难以全面监控;静态阙值无法适配业务动态变化,存在漏报、误报。部署华为AIOps后,可基于AI/ML生成动态阈值,适应各种日常KPI监控场景;通过多指标关联分析,分钟级内给出TopN根因指标;支持智能动态阈值自动调整,指标监控对象可扩大到10万个以上。在某运营商的应用中,去年4月提前5小时识别异常并主动预警,降低业务损失,7月在DNS脚本指向配置错误的情况下第一时间上报变更异常并发送告警短信,保障5G高端用户上网体验。

数据中心硬盘异常检测方面,众所周知硬盘故障后数据修复难度高,需要投入大量人力物力,并且传统的运维模式高度依赖人工,无法提前规避硬盘硬件故障对业务造成的不良影响。华为AIOps能够从历史数据中识别硬盘不同属性的突变模式,对当前状态进行预测;结合用户反馈数据,定期执行模型自优化,持续提升预测精度。目前为止可以做到提前14天预测故障,变被动运维为主动智能运维。现已服务于全球200多家企业,累计预测硬盘超过18万块、每年识别故障盘4000余块、识别数据备份场景1000多个。

“工欲善其事,必先利其器”,选择适合自身的AIOps产品显然是电信网络运维智能化转型的重要一步。而华为NAIE AIOps凭借在ICT和人工智能两大领域的创新积累,完美契合运营商的网络现状与转型诉求;并且基于机器学习、开放生态等方式,未来还能不断迭代、常用常新,必将助力运营商的智能化之路走得更快更远。

给作者点赞
0 VS 0
写得不太好

版权说明:C114刊载的内容,凡注明来源为“C114通信网”或“C114原创”皆属C114版权所有,未经允许禁止转载、摘编,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。编译类文章仅出于传递更多信息之目的,不代表证实其描述或赞同其观点;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141