C114通信网  |  通信人家园

技术
2020/10/27 22:15

城域网全生命周期自动化运维应用的探讨

移动Labs  黄立伟 田文庆

Labs 摘  要

针对城域网运维自动化水平较低、人工成本高且无法摆脱重复运维劳动的现状,本文探讨了当前城域网自动化运维实现的关键点、难点,并针对目前城域网工作的重点、痛点,结合运维的实际情况以及一些新技术、新方向,提出了完整的、可实现的自动化运维应用体系和应用思路,同时针对典型的应用案例给出了相应的解决方案,从而彻底改变传统运维低质、低效的困难局面,推进城域网全生命周期自动化运维能力的提升。

1 背景

移动运营商城域网网络随着近几年业务的迅猛发展,尤其随着国家“宽带中国”战略的稳步推进,有线家庭宽带网络建设在三大运营商中已是后来居上,同时集客市场份额的竞争也日趋白热化,并伴随着公司5G网络业务的接入,城域网络承载的业务类型越来越多,包括宽带上网业务、宽带电视业务、CDN业务、IMS语音业务、互联网专线业务、TR069业务、WLAN业务、网管业务和5G业务等等,业务复杂度越来越高,网络规模也在成倍的增长,使得城域网网络运维工作面临很多的问题和挑战:

(1)自动化运维水平有限。目前自动化运维还仅限于网络设备的自动巡检、备份,家宽、集客业务的自动配置,仅占全部运维工作的20%左右,对于资源的自动采集备案、拓扑的自动发现、资源的自动扩容、网络故障的自动排障和修复、安全加固以及网业协同等方向还存在着诸多重复性、可优化的人工运维工作,需进一步通过提高自动化运维水平来提高运维效力。

(2)运维人员数量与网络规模发展不匹配。近几年公司为了实现降本增效的目的,将第三方维护人员全部削减,在自有人员数量不能及时补充,同时自动化运维水平又有限的情况下,依靠传统运维手段的自有网络运维人员通常都会身兼多职,包括业务配置、安全加固、指标管控、链路扩容和质量分析等等,时间上总是有些捉襟见肘,维护人员数量与网络规模的不匹配日益凸显,如果长期在高强度工作的情况下,难免会出现误操作导致网络故障。

(3)运维能力下降与网络复杂度增加的矛盾突出。数通专业通常具有技术和专业性较强的特点,一个成熟的数通传统运维人员基本要学习一年的时间,才能正常掌握各种协议内容、局数据配置规范内容和网络排障,具备独立支撑网络运维的能力;同时,由于数通运维人员的跳槽率相对较高,所以如果运维人员梯度没有培养好,很容易造成青黄不接的局面,伴随着网络规模和业务复杂度的不断增加,按照传统运维方式,运维能力的下降必将成为网络支撑的重要短板且不断激化。

综上所述,全面实现自动化运维则是解决目前城域网传统运维难题的理想解决方案,尤其是在降本增效、人力资源有限且存在诸多影响因素的情况下,城域网全生命周期的自动化运维将成为必然的发展趋势。

2 自动化运维实现的关键点、难点的探讨

从传统运维模式向自动化运维模式推进的过程中,做到规范标准化、流程标准化,并能够与当前的潮流技术如大数据、人工智能进一步结合,同时确保自动化运维的成果具备强可操作性是自动化运维实现的关键点、难点。

2.1规范标准化的重要性

规范标准化是实现资源自动管理、自动化运维的基础,尤其是各厂家设备局数据配置规范的标准化,包括端口、VLAN等资源分配规范和业务配置模板规范的标准化。在自动化运维推进的过程中,不可避免的需要根据已定制规范对历史局数据做出规范化的整改,而业务逻辑复杂且风险较大的规范化整改仍然需要人工去完成,同时整改后的结果需要程序作出高效的验证。只有实现规范标准化,才能确保局数据的透明化、业务逻辑的清晰化,才能更好的构建统一的CMDB,让自动化运维程序更容易掌握数据、理解数据和操作数据。

2.2流程标准化的重要性

城域网全生命周期的自动化运维涉及多个流程,包括资源请求和分配流程、业务自动配置激活流程、故障管控流程和业务校验流程等,各个流程可能涉及多个系统、模块间的调度协同,流程的标准化确保了自动化运维实现的可行性、稳定性和安全性,有效避免了自动化过程中可能出现的流程卡顿,保证了自动化运维进程的高效推进。

2.3融合新技术优势

在规范和流程都标准化的基础上,自动化运维还应融合大数据、机器学习、云计算和NFV等新技术优势,使得在数据分析、关联挖掘以及风险识别等方面做到更加的科学化、合理化、高效化,实现数据价值最大化、风险操作的最小化和成本使用最优化,充分发挥出自动化运维的高效、高能的优势。

2.4可操作性和安全性保证

城域网全生命周期的自动化运维应具备较强的可操作性和安全性保障,可操作性是指平台建设应符合简单、实用、高效的宗旨,能够切实解决当前运维工作中存在的痛点,例如重复性劳动、高数据价值工作,能够打通业务系统、网管系统和数据配置等系统之间的壁垒,合理构建系统之间的耦合性,确保自动化运维任务的可执行性和执行准确性;同时,自动化运维尽管能够提高生产效率,但是如何保证自动化的操作安全,尤其涉及局数据配置方面的操作,业务逻辑一定要严谨,关键环节授权要严控,日志审计可追踪,退回操作响应要迅速,自动化运维的相关应急预案也要完备,否则误操作对网络业务造成的影响将会很严重。

3 自动化运维的应用方向

3.1自动化运维应用体系设计

城域网全生命周期的自动化运维应覆盖资源管理、告警监控、故障抢修、业务配置、安全防护和网业协同等多个方面,做到全面自动化,彻底解放传统运维劳动力,节约人力成本,提升生产效率。针对目前城域网运维工作中存在的痛点,急需自动化解决、可实现的重点应用如下图1所示:

图1 自动化运维应用体系

3.1.1资源管理自动化应用方向

实现资源管理自动化是整个自动化运维实现的基础和保证,只有构建好统一的数据仓库,保证基础数据的准确性,实现自动化运维平台对资源的透明化管理,才能促进其它自动化运维应用的落地。

3.1.1.1基础资源自动管理应用思路

基础资源的自动管理重点在基础硬件资源管理以及IP资源管理,基础硬件包括设备、板卡和链路等信息,IP资源主要涉及公网IP信息备案。基础资源信息的管理应全面依靠对设备现网数据的统一采集和操作变更事件触发更新,确保系统资源信息同步的及时性和准确性,能够最大化的减少人工劳作和提升资源准确性带来的数据价值。

3.1.1.2拓扑自动发现应用思路

网络拓扑的生成和变化,应依赖设备规范化的端口描述、业务逻辑、Vlan信息等能够自动的发现渲染拓扑,改变依靠人工录入和更新系统资源形成拓扑的传统方案,实现拓扑的自动化、精细化管理,包括主、备业务走向,负载均衡情况等均在在拓扑自动化管理应用中体现。

3.1.1.3资源自动分配应用思路

在基础资源自动化管理实现的基础上,结合规范标准化和流程标准化,资源自动分配的实现就相对简单,资源的自动分配重点在分配逻辑规则的实现上,比如VLAN资源的分配规则、端口资源跨板卡捆绑的分配规则等,同时,应做好资源分配冲突检测作为资源分配最后的防护底线,资源的冲突检测可以在设备上通过自动化程序在线监测,如ping操作监测IP冲突等,或是指令查看端口占用情况。

3.1.1.4资源自动预警应用思路

资源自动预警的应用重点在于实现链路利用率、端口占用率、地址资源占用情况和流量负载失衡四个比较核心的网络关注点,通过自动计算形成统计预警报告,并自动下发通知给网络管理员协调开展扩容工作,充分做好网络扩容等工作的超前预警支撑。

3.1.1.5资源自动扩容应用思路

资源自动扩容包括板卡、链路以及地址池的扩容工作,其中板卡扩容相对简单,仅需在设备执行简单的加载指令,确保加载状态正常后即完成扩容工作;地址池扩容工作和链路扩容相对复杂,涉及资源的自动分配,脚本的自动生成、业务的验证,同时链路扩容还涉及链路调测等多个环节,城域网侧的联调应重点实现通过机器人实现与工程跳线人员的自动化调测。

3.1.2告警监控智能化应用

告警监控智能化应用不仅仅着眼于告警的发现,还需进一步通过自动化的学习、分析来确认和解决存在的异常问题,如流量突变的原因挖掘、OLT故障的研判以及告警自动压缩等等,以告警压缩自动化为例,无效告警的压缩应依靠自动化的手段提升压缩质量和效率,主要应用机器学习手段,通过对历史数据的监督学习,利用告警出现的频度高低、厂家建议是否压缩、告警重要程度评级、告警影响程度和告警是否存在关联告警等带标记数据进行学习建模,最后通过告警压缩模型,实现对告警自动化的高效压缩,如图2所示:

图2 无效告警压缩

3.1.3故障抢修智能化应用

城域网重点业务主要涉及家庭宽带、电视以及集客专线业务,当网络发生故障时,由于端到端的链路比较长,地市和省公司之间分管不同节点设备,排障过程的信息交互往往需要较常时间,靠人工去分析判断故障点或是完成业务抢通速度就比较慢,构建自动化的排障能力和故障抢通能力,才是故障抢修提效同时提升客户满意度的关键能力。

3.1.3.1端到端智能排障应用思路

当单个用户的投诉或是基本不存在接入汇聚特征的分散投诉时,则可以根据投诉业务的类型,做端到端的逐段ping测快速确定故障节点,但前提是根据干线链路的分类做好各条业务的走向分类,确保每一条业务都能准确关联端到端的链路,这样才能保证自动排障行为的可行性和结果的准确性。比如单个电视业务投诉,首先,自动排障功能模块会在主干链路BNG-CR-BR上,由BNG发起到CR和BR的loopback地址的逐段ping测,确保干线链路无物理中断和链路丢包;然后,再根据故障类型,如果是地址池问题,就可以ping测DHCP服务器地址,如果是直播问题,就可以ping测组播汇聚节点RP的地址,如果看不到电子节目单,就可以ping测EPG服务器,这样根据ping测结果的丢包情况,无需联系省公司运维人员,也可以快速确定故障问题点。

3.1.3.2业务自愈应用思路

业务自愈包括中断自愈和质差自愈,城域网在进行扁平化组网改造之后,所有业务基本实现了自动切换的能力,包括温备和热备能力,所以自动化运维的业务自愈最实用的场景就是质差自愈,这里以OLT上联链路CRC影响电视花屏为例,主要采集OLT上联口存在错误CRC数据的链路端口,然后识别链路配对信息,尤其是配对链路的峰值利用率信息,并根据这个数据完成倒换前的科学评估,最后智能决策是否要执行倒换指令,将指令下发配置到设备,实现在投诉前的快速倒换处理。

3.1.4业务配置自动化应用

配置自动激活是最先实现自动化的应用,2016年宽带配置基本实现了自动配置激活,2019年城域网也开始研究专线自动配置激活,在整个应用测试过程中,专线自动开通失败原因统计如下图3所示:

图3 专线自动开通失败原因统计

根据统计结果不难发现,IP和VLAN资源分配失败或冲突导致的开通失败是主要原因,另外,专线自动化开通涉及的服开系统和配置激活系统本身存在的程序bug占比也达到了12%,同时局数据配置的不规范导致程序无法执行本该执行的任务占比也达到了11% 。所以,从专线自动化开通的测试经验来看,要确保自动化应用的可行性,首先,要强化资源自动分配环节的可执行性,要重点解决IP、VLAN等资源的分配逻辑和冲突检测;其次,要落实局数据规范性整改,整改过程应尽量依靠自动化的手段取代人工,确保整改的准确性;最后,系统程序的健壮性也是自动化应用很重要的保障,避免系统本身的脆弱性给功能应用造成影响。

业务配置自动化应用虽然已经开展,但应用的范围相对有限,要真正实现自动化运维就应该确保可实施性的前提下,最大限度的开展自动化的应用。在自动化业务配置方面,不同厂家设备应统一构建好各种业务类型的配置模板,目前城域网的业务配置模板分类包括家宽业务配置模板、集客业务配置模板、WLAN业务配置模板、网管业务配置模板和业务采集配置模板,各类业务配置模板下还应尽量细化小类模板,这样才能全面适应自动化业务配置的各类场景开通。

3.1.5安全防护自动化应用

随着互联网业务的蓬勃发展,在网络安全防护方面暴漏的管理脆弱性也越来越突出,运营商在网络建设初期就严格遵守“三同步”原则,避免设备“带病入网”,同时网络安全防护管理工作的部署也越来越细致。城域网随着网络规模的不断增大,安全防护的任务也越来越来越艰巨,往往同样的安全加固内容要全部设备逐一登录添加配置,比如电视业务的安全加固;同样,专线引流工作也仅仅是登录设备配置相应的ACL简单操作,但往往人工操作效率都相对较低,针对此类操作简单、风险小的安全防护配置,应该是自动化运维工作解决的重点内容。

3.1.6网业协同智能化应用

随着城域网业务规模、网络规模的不断发展壮大,同时又面临市场业务发展的不确定性,网络规划建设、扩容等工作如果没有科学的预测分析,盲目的新建资源有可能会造成城域网资源的浪费,也不利于后期网络优化调整,因此,做好网业之间协同智能化工作显得尤其重要,包括用户满意度分析中服务质差与网络质差的分析,只有做好两者之间的智能协同才能高效、更精准的挖掘质差原因。

3.1.6.1资源投放与市场发展协同应用思路

资源投放与市场发展的系统,可以结合镇区网格化、市场规划发展数据或是预增用户量数据和镇区现网设备的承载数据,通过各类业务量预测模型的计算,对新增容量需求做出准确的评估预测,最终输出现有和新增评估后的容量对比图,各个镇区所需的扩容需求将一目了然,轻松实现资源的合理规划和科学投放,自动化实现方案如下图4所示:

图4 自动化评估模型

3.1.6.2满意度协同分析应用思路

客户的满意度分析也是自动化运维的一个重要应用点,通常客户满意度的分析基本都是针对调研数据,为了避免给客户造成反感,调研数据基本都是简单的询问,调研结果可能会具有一定片面性,因此,只有依靠系统自动化,才能更全面的挖掘质差原因和落实好相关的改善措施。由于客户满意度涉及多个方面,通常包括网络质量质差、装维质量质差和业务服务质差,要全面的挖掘质差和改善质差,就要提升对服务质差和网络质差的协同分析能力。利用机器学习方法实现协同分析的解决思路主要有三步:

第一步:构建网络质量质差、装维质量质差和业务服务质差的分类器,将每台BNG下的投诉用户数据输入到分类器模型进行预测,最后对所有分类预测结果进行统计计算,对每台BNG下带用户进行质差类别分类;

第二步:利用Apriori关联规则算法,确定网络质量质差、装维质量质差和业务服务质差的关联原因。

第三步:利用第一步实现的针对每台BNG作出的细化质差原因分类,并结合第二步的关联质差原因,对每台BNG设备覆盖范围内的业务给出质差分析报告和整改方向。

4 系统架构

结合大数据处理和小数据灵活处理方案,搭建城域网自动化运维平台,平台设计主要由4层架构实现,如下图5所示:

图5  平台架构

(1)数据源:主要实现数据采集功能,包括网管数据、局数据、DPI数据、服开数据、投诉数据等多维基础数据。

(2)数据平台:主要实现数据的存储和预处理,构建统一、规范的基础数据仓库,供核心算法层进行建模分析、计算处理以及指令配置等。

(3)核心算法:主要集成了资源自动处理、业务自动配置、安全防护加固、网业智能协同以及实现大数据智能化分析的人工智能算法等,以实现应用层的自动化功能。

(4)功能应用:应用层主要实现6大功能,包括告警监控智能化、资源管理自动化、故障抢修智能化、安全防护自动化、业务配置自动化和网业协同智能化。

5 总结

城域网运维工作从传统运维到自动化运维的转变将成为必然趋势,本文提出的全生命周期的自动化运维囊括了资源管理、告警监控、故障抢修、业务配置、安全防护和网业协同等多个场景应用,同时给出了当前城域网运维急需解决或是改进的典型应用问题点的解决方案,为城域网自动化运维的推进奠定了基础,实现城域网全生命周期的自动化运维将给网络运维带来全面的降本增效,也为实现自动化运维向智能化运维阶段发展带来重要意义。

作者:黄立伟,田文庆,杨彬,詹鹏飞

参考文献:

[1] 陈运清,城域网组网框架和多业务承载[J].电信技术.2005(06)

[2] 网络拓扑发现技术分析[J]. 罗西军,刘亚.  数字技术与应用. 2013(09)

[3] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[4] 成峰辉. 浅析大数据关键技术[J]. 通讯世界, 2015(17)

[5] 自动化运维中网络拓扑发现技术的研究与实现[J]. 计算技术与自动化,2019(4)

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2020 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141