随着全球企业数字化转型2.0时代的到来,企业数字化已经从降本增效变成生存之本,特别是新冠疫情以来,每个企业都深刻感受到了企业ICT能力的重要性,从远程办公到端到端的研-产-销协同,企业的数字化能力决定了企业的快速响应和应急创新等能力。
数据中心网络作为承载企业所有数据和业务的中心,随着企业数字化业务的迅猛发展,自上世纪90年代至今,无论是在技术上、还是部署规模上都极速发展,并先后历经数据大集中及资源池化、云计算两个跨越式发展阶段。然而,企业数据中心OPEX也随着网络规模扩大而逐年增加,网络运营在规划、建设、维护和优化各阶段仍严重依赖于人员经验和技能,存在大量的人工编排、人工检校、人工排障、人工恢复等诸多人工断裂点,结构化矛盾日益凸显:
规划阶段:企业数据中心在未来3年仍处于高速建设期,服务器规模将翻倍增加。网络设计人员需要完成将业务需求转化为网络设计,评估应用安全要求,规划网络资源使用等繁琐工作,这消耗了企业中约一半网络人力资源,急需通过系统化、自动化手段改变疲于奔命的状态。
建设阶段:一方面,随着云化业务量大幅上升,业务上线周期由原来周级提升至天级,压力日趋增大。另一方面,企业关键核心业务对可靠性要求越来越高。据统计,近40%网络事故由人为失误导致,如何保障配置发放的正确性至关重要。
维护阶段:当前企业数据中心大多采用4个9(99.995%)高可用标准,部分核心业务要求达到5个9(99.999%)标准。然而,传统网络运维依靠告警、事件和日志等信息,无论是状态信息的丰富程度,还是监测周期(通常10min)都无法满足云化数据中心的运维要求。网络故障处在被动应对,依赖人工排查,从而导致定位时间不可控的局面。
优化阶段:一方面,云化数据中心业务变化加快,网络、安全资源使用容易存在局部热点,如不及时调度将可能导致业务上线失败。另一方面,AI训练、大数据、高性能计算和分布式存储等新兴业务规模上线,应用之间点到多点分发式通信模式增多,导致网络微突发情况加剧和亚健康状态频发,严重影响业务运行效率。当前网络状态评估、业务预测等工作仍严重依赖人工经验,存在滞后性,潜在风险无法及时排除,造成业务体验差。
以自动、自愈、自优、自治为愿景目标,华为数据中心自动驾驶网络持续发展演进
类比自动驾驶汽车,华为和多家标准组织、企业客户共同提出自动驾驶网络,致力于消除网络全生命周期运营维护中的人工断裂点,逐步实现网络全生命周期高度自治。华为数据中心自动驾驶网络遵循TMForum论坛的分级方法将自动驾驶等级划分为L0~L5级,每个级别具备不同关键能力特征,覆盖网络规划、建设、运维和优化等全生命周期过程,从无自动化逐级上升到完全自动化,逐步向的无人值守数据中心网络演进。
2020年9月,华为数据中心自动驾驶网络率先达到L3级。在这一阶段,华为构建了“规、建、维、优”四个环节全流程的智能化能力,帮助客户实现了单一网络的自动化,助力业务秒级发放;同时,实现了网络从被动运维到主动运维的转变,保证业务7x24在线。
华为L3数据中心自动驾驶网络关键能力
L3数据中心自动驾驶网络的核心能力包括如下三点:
意图推荐:系统代理人理解业务意图和目标,来解决网络建设和业务部署过程中依赖专家投入,反复沟通业务意图、设计网络方案和会审耗时耗力的问题。首先,通过意图引擎实现意图的理解和意图的转换,将业务意图转换成网络语言,然后以数字孪生模型为基础,根据华为在9200多个数据中心成功部署总结的专家经验库,基于专家经验并结合AI算法,向用户提供符合现网实际情况的最佳网络部署方案。
仿真校验:用数据验证避免人“考虑不周”,来解决网络变更难以评估现网资源充足度、变更是否符合预期以及是否对现网产生影响的问题。首先,收集网络数据,包括配置、状态、流量以及日志、安全等数据,构建五层数字孪生模型。再基于数字孪生模型,通过形式化验证算法对于整个网络进行计算,即通过数学方法对网络全量变更验证。
智能运维:突破人工经验决策极限,来解决依赖专家经验故障定位难、故障无法主动预防的问题。首先,基于AI芯片进行全流采集,实时感知网络异常;然后,基于AI知识图谱实现故障根因推理和定位,通过持续学习和训练,目前实现对7大类75种故障3分钟之内定位根因;最后,基于智能决策系统,分析故障影响并推荐最优故障处理方案,实现故障5分钟快速恢复。
从L3升级到L3.5,华为着力解决多云多厂商复杂异构网络的自动驾驶难题
一方面,随着云化加速,业务上云走向分布式架构,多云部署成为常态。另一方面,现实中企业的大量业务是由多厂商提供支撑的,大量企业的数据中心网络架构并未统一,从而导致多厂商、多网络架构并存,这给企业数据中心网络进一步提升自动化水平带了诸多挑战:
首先,在七国八制下,多云和多厂商网络模型差别非常大,各自的网络控制器只能管理各自的设备,使得人工断裂点攀升,一个跨云跨厂商的复杂业务甚至会出现超过100个断点。
其次,IT团队和网络团队使用不同的工作视图,多视图割裂导致网络能力不能被业务视图调用,进而导致业务出现异常时需要多部门人肉式协同定位故障,耗时耗力。
最后,多工单并行模式下,网络部门被迫不断在工单间切换,每天都被大量的零散工单淹没。更折磨人的是,由于逐单执行但始终看不到业务全局视图,因此即使所有的业务工单都执行完成了,网络是否能够完全满足业务的需求也无从判断。
2021年9月,华为率先发布L3.5数据中心自动驾驶网络,在L3单一网络自动化基础上推进到了多云多厂商全场景网络服务化,致力于在多云多厂商网络中实现无差别管控、灵活编排协同、仿真验证等高度自动化能力,并与客户IT管理系统对接继承已形成的自动化流程,助力企业业务在复杂异构网络环境下也能够敏捷创新。
华为L3.5数据中心自动驾驶网络架构
华为L3.5数据中心自动驾驶网络方案提供异构网络统一管控、全网灵活编排的关键能力,彻底解决多云多厂网络人工管理低效问题,业务上线周期从月缩短到分钟级。
统一管控:南向通过AOC开放可编程平台,制作和加载设备驱动包,南向高效对多厂商网络设备统一纳管。
灵活编排:北向通过Runbook业务设计平台,开放全量100+网络原子能力,全网业务流灵活编排;提供全网仿真能力,保障全网无差别精准部署。同时,业务流编排后自动生成API,即提供网络服务,供北向系统灵活高频复用。
华为数据中心自动驾驶网络方案,为企业数字化转型而生,是网络自身数字化转型的发动机,智能感知商业意图,自主决策执行,加速商业价值变现。当然,数据中心网络实现高度自治无法一蹴而就,需要通过3~5年甚至更长的时间来实现网络高度自动化和智能化。这一发展历程,离不开产业组织和合作伙伴的紧密协同,更离不开全球客户的创新实践与商业牵引。目前,自智网络已经成为业界共识,希望更多的产业组织、伙伴和客户一起,共同推进数据中心网络走进自动驾驶时代。