C114通信网  |  通信人家园

云计算
2017/12/15 11:51

迎战双12:玖云平台保障通信系统稳定运行

厂商供稿  

双11已落下帷幕,天猫全天销售额达1682亿,根据国家邮政局监测数据显示,电商企业全天共产生快递订单达8.5亿之多,快递行业迎来了一年中最繁忙的时刻。玖云平台承载着多家快递物流客户的通信业务,随着双11的结束迎来了话务高峰,双12也接踵而至。为了全方位的保障通信系统健康稳定的运行,让客户享受更优质的通话体验,玖云团队团队必须时刻保持警惕。

时刻警惕---全方位保障通信系统健康稳定的运行

双十一期间,玖云平台的电话量会是平时的近十倍,通讯系统高峰期要在一秒内处理50万路并发,瞬间海量数据的I/O,如此高的并发话务请求、检索以及通话处理很容易导致系统工作负荷加大,形成自我保护性关闭或崩溃,从而使通讯系统瘫痪。玖云团队除了要让系统在海量并发的条件下正常工作外,还要避免话质欠挂、通话异常中断、电话打不进来等情况发生,保障用户有良好的通话体验。这就要求玖云团队必须在各个环节做好资源的分配与调度,并进行严格的压力测试,此外还必须从各个层面保持对系统的密切关注,避免任何可能发生的问题。

为了确保整个双11、双12期间通信系统健康平稳的运行,玖云团队必须时刻警惕,从以下几个层面对系统进行密切关注:

1、应用层的系统监控

检测系统AS服务器是否正常运行,程序日志是否有告警或异常输出,进程处理是否存在缓慢延时等情况。如单位时间内出现的warring日志比例上升,系统可能存在潜在异常风险,此时运维必须第一时间进行人工干预分析,从warring日志中找到问题所在,如有可能发生致命性的风险,会立即进行人工修复,主备系统倒换,视情况进行版本升级或回退等操作。

2、业务层的系统临控

电话业务接通率是否正常,通话时长是否正常,接通响应时间是否正常,如出现拔号完响铃时间比平时长,用户体验就会明显下降,这时运维会参考网络流量、服务器CPU、内存占用率、进程处理效率等进行多维度分析,通过监控图等手段缩小故障的范围。如设备性能异常导致,则会将异常设备移出集群,并启用备件更换流程等操作,更换完毕测试正常后加入集群参与业务。

3、资源层的系统监控

密切关注E1占用情况,是否存在急剧空闲或不足,服务器CPU、内存、磁盘IO、网络设备性能及带宽占用情况等资源是否充足,目前资源的安排已按照最高业务量进行评估和配置,如出现高于评估量的情况,会在10分钟内进行临时扩容,确保运营系统能提供不间断的服务。

除了以上对通信系统各个层面保持密切关注外,玖云平台内部还制定了一系列的运维服务保障计划,如:要求系统断网时间不超过10分钟,平台出现异常必须在30分钟内启动应急预案,进行系统灾难性倒换测试等,以确保系统能够平稳顺利的度过整个“双11”、“双12”。

如履薄冰--只为客户有更优质的通话体验

每年双11、双12对玖云平台都是一次巨大的考验,很多问题都会在这种高强度、高压力下暴露出来,经过多次考验,玖云团队积累了丰富的经验,目前玖云平台已经非常的成熟可靠,并在物流,金融,地产,互联网O2O等行业有着非常高认可及评价。接下来的双12,玖云平台将会迎来另一个话务高峰,玖云团队依然会不遗余力继续为客户提供更优质的服务。

作者简介:王超华,玖云平台运维工程师,负责玖云平台的运维工作。本文是其站在运维工程师的角度,对玖云平台可靠性、稳定性的描述。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141