一个故障,N张工单,应该怎么破?

举报
技术火炬手 发表于 2019/05/07 15:48:29 2019/05/07
【摘要】 运营商的运维领域面临一个普遍问题:网络发生故障时,系统无法确切地知道故障发生在哪里。集中故障处理系统(将每个领域上报的故障进行综合处理) 不得不向所有可能引发故障的领域都派发相应的故障处理工单。各领域维护中心接收到故障处理工单后,根据工单的重要紧急程度,派人到现场或远程处理解决工单问题,并反馈处理结果。

不知故障在何处,逐个排查处理。“简单重复劳动”何时说再见?

运营商的运维领域面临一个普遍问题:网络发生故障时,系统无法确切地知道故障发生在哪里。集中故障处理系统(将每个领域上报的故障进行综合处理) 不得不向所有可能引发故障的领域都派发相应的故障处理工单。各领域维护中心接收到故障处理工单后,根据工单的重要紧急程度,派人到现场或远程处理解决工单问题,并反馈处理结果。

1a.jpg

某运营商:某站点蓄电池发生故障,由于系统无法定位到具体故障位置,向各领域下派了13张工单。简单的故障,不得不派多人到现场或远程定位处理,效率低下。

2a.PNG

导致故障处理效率低下的原因,是集中故障处理系统缺乏端到端(全网整体)的管理视角,无法将各领域故障告警的逻辑关系进行关联分析。据统计,由于缺乏跨域故障原因关联,运营商运维领域约有65%的重复或无效工单。

AI大显身手,首先减少电力、光纤中断等无线接入网领域的故障派单

AI的落地,要先易后难。用机器来辅助人,提高效率。智慧运维现阶段聚焦在最耗人工,效率低的短板上,重点消除简单重复的工作(如无线接入网故障,发生频率高,故障原因简单,宜先落地AI应用。而核心网故障,问题定位和根因复杂,可稍后实现AI辅助)。

以下为某省局点工单统计图,电力中断/光纤中断/硬件故障是无线接入网的三大首要故障。故障发生频繁,影响面大,系统重复派单现象严重。某局网管中心需求:电力中断,光纤中断等无线接入网故障派单是最大痛点,需要重点实现。

3a.jpg

目前主要靠多年网络运维积累的专家经验,形成告警压缩和派单规则。但专家定义告警压缩规则存在一些问题:

  1. 专家经验大多聚焦于单领域,缺乏跨域规则经验

  2. 人工定义压缩规则耗时耗力,对人员经验要求高,难以快速找到压缩规则

  3. 人工定义的规则无法结合网络变化而改变,无法深挖网络深层次规则

66.jpg

通过引入AI,跨域、动态、深度地挖掘工单压缩规则,最终实现三省:

  • 省钱:通过AI分析,减少无效派单

  • 省心:可视化分析,可视化展示

  • 省事:故障智能化定界,现场辅助定位,减少故障时间

揭开神秘面纱,带您窥探AI如何实现“一个故障,一张工单”

啤酒和尿布的故事

在这个案例中,大显身手的是机器学习中的关联性分析的算法。它最早应用在发现交易数据库中不同商品(项)之间的联系。美国沃尔玛超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。原来商家通过大量历史销售数据分析发现,人们买尿布的同时总是会一起买些啤酒。尿布和啤酒同时被销售的概率很大(尿布和啤酒就是频繁项,两者有很大的关联性),这一举措居然使尿布和啤酒的销量大幅增加了。原来美国妇女通常在家照顾孩子,她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现最终为商家带来了大量的利润。

4a.jpg

在故障关联分析中,算法基于告警的时间和空间分布关系,从大量告警中找出频繁一起出现的告警,从而进一步找到告警之间的关联规则。

结合实际案例场景,“6步法”找到故障源头,实现工单压缩

某局点案例:XX站点PTN1在08:36断电,到18:00恢复时各网元告警合计600+条,消除重复告警,相关告警100+条;系统产生1张动力停电工单、4张基站退服工单、4张传输工单,1张集客业务工单,1张家宽工单,共计11张工单。

5a.jpg

(1)跨域故障关联的基础:跨域网络拓扑还原

实现网络拓扑还原,需要数据湖根据网络节点的业务关系(L2 Tunnel/无线动环设备关联关系等等)还原跨域网络拓扑。目前,数据湖能够对接综合网管和资管系统,定期自动地导出相关数据,将动环、无线、传输设备网元及其TUNNEL配置数据,挖掘各网元连接关系,采用无向有环图进行拓扑结构表达,完成跨域网络的拓扑还原,并生成可视化拓扑图。

(2)基于拓扑的告警时空分布映射,频繁项挖掘确定跨域故障关联规则

3步数据处理(数据采集,数据清洗,告警和拓扑映射)+3步AI算法应用(算法选择,规则挖掘和专家确认,规则执行)实现自动挖掘故障关联规则,确定引发故障的标志告警,找到故障源头。

6a.jpg

系统定时采集动环(机房的动力设备和环境变量信息,如温度,湿度,泄漏,空调,电源,烟雾传感等),网络拓扑数据,实时接收告警数据。对相关数据进行数据清洗和特征处理变成可使用的结构化数据。结合网络拓扑,构造动环->基站->PTN的对应关系,确定告警的时空分布(当天的告警挂载到当天拓扑上),生成训练数据集。训练数据集经过关联分析算法(我们采用经典的频繁项挖掘算法FP-growth及改进的FPMax算法),训练生成故障关联规则。结合关联规则,系统从大量告警中找出11项强关联的标志告警。接着,利用拓扑图约束规则(中心节点是导致周边节点故障的原因,中心节点是标志告警)和告警类型约束规则(电力中断类告警是其它传输类或业务类告警的标志告警)等专家规则(专家规则经验固化到算法模型中,并结合业务场景训练迭代规则),最终确定汇聚设备断电是引发所有告警的原因,从而生成1张停电工单。

AI应用效果初显,未来继续行稳致远

通过对某地市局点3个月的告警故障挖掘分析,实现现网部署合并规则XX条,日均告警压缩量XX条。实现工单压缩20%,故障定界小于5分钟。如某地市每年故障工单约110000张,工单压缩20%,可以少派发22000张工单。按当前按需工单均价100每张计算,一年费用可以节省200万左右。

未来,AI将进一步分析更多的数据,挖掘更多规则,并实现故障定位和根因分析。


本文选自“人工智能园地”微信公众号。

---------------

懂万物更懂你,EI智能体验馆上手试一试


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200