C114通信网  |  通信人家园

专题
2022/3/16 15:42

美团岳树烨:智能运维“三部曲”破解大规模光模块管理难题

C114通信网  九九

C114讯 3月16日消息(九九)数据中心作为整个基础设施的底座,其规模正在逐年扩大,光互连组件在数据中心网络中的占比也在大幅上升,光器件(模块、AOC等)的成本正在接近网络设备。与此同时,“双碳”以及 “东数西算”等国家战略,对数据中心网络和光互连技术提出更高的要求。

在今天下午举行的“全光数据中心线上研讨会”上,美团网络工程师岳树烨表示,美团正在拥抱变化,从互连架构设计、产品选型、线上管理以及对下一代的提前布局等多个方面出发,建设高质量数据中心网络。

业务和生态共同催生400G网络

根据2019年9月ODCC组织(开放数据中心委员会)发布的《400G光模块技术白皮书》,400G网络架构会在2020年到2021年逐步商用。在不久的未来,800G甚至是1.6T模块也将会和我们见面。根据业内整体市场规模统计和预测显示,到2023年,光模块市场整体规模将达到120亿美元以上,相比2018年的60亿美元增长一倍。

从业务方面看,随着信息时代的到来,以及人工智能、虚拟/增强现实、物联网等新型技术的出现,数据流量呈现爆发式增长,这种增长对数据中心网络架构和容量等提出了越来越高的要求。

除了业务方面的需求,400G光模块的生态也逐步成熟,厂商陆续发布超强算力的GPU计算服务器。岳树烨指出,美团整体进度符合ODCC发布的预测,在2020-2021之间切入400G网络建设。

大规模光模块管理成为重要课题

随着网络架构升级,框式交换机逐步被拆成盒式交换机,光模块数量也随之增加。为了降低成本,交换机和光模块也逐步解耦,由模块厂商直接供货而不再是向设备厂商采购,这样做的好处是可以在一定程度上降低成本,但会提升运维复杂度。如何更好地做好对光模块的监控管理,将成为重要课题。

岳树烨介绍,常规网络监控是单点监控,即单一设备单一监控项。为了更有效地观察光模块收发光功率,需要观察的是一组收发,即本端和对端需要同时展示,因此美团对常规监控方法进行了优化:为每台交换机构建“端口邻居”数据库,并以http api的形式为上层应用提供服务。当运维人员查看本端光模块收发光信息时,系统会通过lldp数据库查询到对端信息,并同时展示。

岳树烨进一步介绍,美团针对大规模光模块管理探索出智能运维“三部曲”。一是异常主动发现,故障预测。利用机器学习分析告警阈值,网络、设备、光模块、光传输等更多精细特征指标异常发现及在线趋势预测。二是自我诊断,故障定位。结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势。三是智能联动,快速通告。联动失效告警、自动隔离、工单派发、效果验收、业务恢复全链条的故障自动化处理。

“从2017年开始,终端模块使用者开启从商用到自采的转换,成本和故障率都有明显下降。”岳树烨说:“如果想获得成本、故障率和稳定性的长期收效,根据客户的应用需求进行定制开发并细化到芯片设计可以创造更高的价值,实现客户方、模块厂商和芯片厂商多方共赢。”

给作者点赞
0 VS 0
写得不太好

版权说明:C114刊载的内容,凡注明来源为“C114通信网”或“C114原创”皆属C114版权所有,未经允许禁止转载、摘编,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。编译类文章仅出于传递更多信息之目的,不代表证实其描述或赞同其观点;翻译质量问题请指正

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141