【云驻共创】如何让机器听懂我的“警告”?网络AIOps应用实践

举报
y-wolfandy 发表于 2022/02/28 22:33:38 2022/02/28
【摘要】  AIOps平台是IT运营的下一代解决方案,IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因。而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度。

1、AIOps简介

AIOps全称为 Artificial Intelligence for IT Operations,即人工智能IT运维。AIOps平台利用大数据,现代机器学习和其他高级分析技术,以主动、个性化和动态的见解直接或间接地增强IT操作(监视,自动化和服务台)的功能。AIOps平台可以自动在基础架构和应用程序域之间收集数据,从而在日志、性能警报、故障单,以及其他项目中查找数据。在这个过程中,AI可以自动识别基础设备、正在运行的应用程序和业务交易,并将其与上下游数据进行关联。

那如何让机器通过收集到的日志、性能警报、故障单中的数据识别警告,是实现AIOps的关键。


2、AIOps在电信网络运维实践

2.1、电信网络系统运维现状

目前电信网络系统运维挑战:

  • 设备及软件种类多,安装部署环境复杂;
  • 网络拓扑结构复杂,故障传播链长;
  • 牵涉的组织、部门多,闭环难度大;
  • 事故影响大,责任重;

电信网络系统运维目标:

  • 故障定界、定位:快速定位故障,从故障中恢复;
  • KPI异常检测:及早发现、预报事故苗头;

电信网络运维有利条件:

  • 日志齐全
  • 命令日志、告警日志、KPI统计数据
  • 可用于构造现网拓扑图,可挖掘故障,告警间因果关系
  • 文档丰富
  • 产品文档、运维文档、社区经验共享
  • 可挖掘故障、告警间因果关系


2.2、故障告警根因定界

现状:

  • 业务专家手工建立因果关系:因果关系是建立在schema的,不是实体上的;
  • 专家人工分析症状传播图、猜测故障根因、并检查确认、故障恢复;

期望:

  • 自动发现症状间因果关系;
  • 推荐可能根因故障;
  • 长期目标:自动检查确认、故障恢复;


2.3、KPI异常检测

2.3.1、固定阈值与时间序列法

网络运维KPI异常检测的痛点

  • 指标数量多,人工难以全面控制;
  • 场景变化多,难以自动更新适配;
  • 固定阈值存在告警不准,或者告警遗漏问题;

基于时间序列的异常检测方法的问题

  • 将时间序列当做上下文的波动曲线;
  • 人工标准的标准无法定义;
  • 给定上下文,业务目标的条件下谈异常才有意义;


2.3.2、利用上下文信息

原理:

  • 目标KPI:运维团队的考核指标,异常条件人工定义;
  • 辅助KPI:根据对目标KPI的直接或间接影响判断是否异常;

流程:

  • 训练时,自顶向下为KPI关系图上的节点建立异常分类器,上层节点为下层节点传递监督信息;
  • 检测异常时,自底向上检测,底层的异常可能在上层过滤;
  • KPI数量庞大,可以人工为一些代表性节点建立分类器,其它节点自动生成分类器。


2.4、文本规则知识抽取

针对在电信网络系统运维中存在的问题,可通过文本规则知识抽取的方法来解决。

2.4.1、会话语义解析

技术特点:

  • Seq2Tree Deq2Pointer-Generator等模型;
  • 输出有预定义的Schema

局限性:

  • 公开数据集与技术文档差别大


2.4.2、话语表示结构解析

技术特点

  • Seq2Seq等模型;
  • 输出包含时态、模态信息;

局限性

  • 公开数据集与技术文档差别大;
  • 标注成本高;


2.4.3、语义依存分析

技术特点

Seq2Treetransition-based等方法;

局限性

对长语句、复杂语句效果不佳;

专业术语对效果影响较大;

2.4.4、采用分治法做语义理解

  • 复合名分割与定义分析:获取症状、条件之间的关系;
  • 短语、实体抽取与语义分析:获取实体位置、约束;
  • 简单名语义分析:获取症状类型

2.4.5、复合句分析

挑战:

  • 同一语句包含多种句法关系
  • 十多种常见句法关系
  • 隐匿句法关系(没有连接词)
  • 复杂的语句结构

解决办法:语句分割

技术方案

  • BERT-CRF
  • SegBot


3、华为AIOps介绍

华为AIOps服务作为网络AI引擎NAIE的核心能力,提供一系列AIOps原子能力以及组合编排能力,可以灵活适配各类ICT运维业务场景,助力高效快速地实现智能化运维,提升运维工作效率。华为AIOps服务具有3大核心价值。

1)集成电信知识经验和最佳AI算法实践的原子能力,覆盖主流网络运维业务场景

华为NAIE AIOps服务围绕故障预测、故障检测、根因诊断等场景,提供超过20AI原子能力,覆盖网络运维业务大部分流程和运维业务需求,如流量预测、KPI异常检测、日志异常检测、CHR异常检测、异常关联分析、事件聚合、根因定位等。这些原子能力是基于华为电信网络知识的积累、高质量的数据样本,结合最佳算法调测实现,在拥有模型高精度的同时,也有较好的的模型泛化能力。以根因定位为例,AI传播图积累多个领域故障传播规则,覆盖无线、数通、传接等场景,只需选定场景,告警自动通过AI传播关系推理出故障根因。

2)编排框架零编码快速实现智能运维应用,大屏效果实时可视

NAIE提供的编排框架操作简单灵活,使用者可选择业务场景所需的AIOps原子能力,通过可视化方式完成流程串接,只需从组件库中拖拽数据及原子能力进行组合,即可完成应用场景端到端的图形化编排。并且,支持进行业务泛化的参数配置,包括数据接入方式、模型参数、内置电信领域泛化参数,真正支撑使用者零编码、低门槛进行作业,高效构建AI应用。同时,NAIE AIOps的编排框架还提供数据可视化服务,支持轻松按需搭建可视化大屏,其包括丰富的2D/3D可视化组件,如图表控件、地图控件、交互控件以及媒体控件等,拖拽式自由布局,快速实现DIY可视化大屏,一键预览,业务结果快速呈现,实现运维应用效果的实时可视。

3)针对典型场景,提供开箱即用的APP

NAIE AIOps服务目前针对运维最常见的业务场景,提供数十个开箱即用的APP,覆盖运营商网络、园区网络、DC网络、IT应用四大领域。运营商领域,提供跨域故障识别分析、核心网日志异常监测、基站流量预测、无线性能分析等应用;针对园区网络,提供园区5G设备故障监测、园区网络智能巡检、光模块故障预测等;在DC领域,提供硬盘故障预测、DC PUE优化、供电锂电故障预测、DC安全智能巡检等;另外在IT应用领域,提供IT应用健康监控、云服务日志异常监测等智能运维应用。
基于华为NAIE AIOps的智能化应用已经在全球110+局点实现部署和运用,效果明显。其中,智能检测系统能够提前识别网络故障,助力运营商及早发现问题和进行相关恢复处理,降低业务的影响。数据中心的智能节能方案,通过AIOps服务可以快速完成模型的泛化和方案的部署,在多个数据中心运用中,带来5%~10%PUE降低。

华为AIOps服务,沉淀了10+开箱即用的智能APP,覆盖运营商网络、园区网络、数据中心网络和IT应用等领域,可加速网络AI应用落地,预集成丰富的AI原子能力,覆盖故障预测、检测、诊断、识别等环节。支持用户零编码开发AI应用,提升运维效率。

4、华为AIOps主要功能

华为AIOps服务具备如下功能:

4.1、数据采集治理

AIOps预置数据采集治理能力,提供一站式的数据采集、解析、治理等基础工具链,以及智能辅助数据标注能力

4.2、应用流程设计

提供零编码流程开发能力,针对不同场景,灵活自定义应用流程。

4.3、应用大屏设计

拖拽式自由布局,快速实现DIY可视化,轻松搭建大屏,一键预览。

4.4、应用货架

沉淀典型应用资产,帮助用户轻松部署、运行AI应用。

4.5、原子能力扩展

支持用户导入自定义的AI原子能力,高效扩展应用。

5、华为AIOps亮点优势

5.1、数据易对接

支持SFTPKafkaRest等通用采集协议,支持华为30类网元、100多种主流设备的自动对接,满足ICT网络领域端管云的数据采集需求。

5.2、丰富的AI原子能力

20+原子能力覆盖预测、检测、诊断、识别等网络运维场景,通过100+现网局点验证,异常识别与故障诊断准确率达90%,并支持用户自定义扩展。

5.3、开箱即用的AI应用

沉淀数十个经过专家调优与局点验证的开箱即用APP,用户只需配置数据源,即可启动APP运行。免去了应用流程、可视化大屏的设计耗时,将AI应用的开发部署过程缩短到分钟级。

5.4、零编码场景化流程编排

基于丰富的原子能力,简单拖拽式设计APP流程,系统自动完成节点间的数据衔接,并根据原子能力关系,自动推荐下个可能需要的节点,避免了用户从组件库中反复筛选验证的过程,降低AI应用开发门槛。

5.5、可视化大屏按需定制

提供80+2D/3D可视化组件,轻松DIY出包含趋势、报表、网络关系等元素的可视化大屏,通过自定义SQL灵活检索APP数据。同一APP下的多个大屏,可通过环境变量相互传参跳转,将统计呈现与钻取分析的多个页面融为一体,有效地提升运维效率。


6、华为AIOps应用场景

6.1、运营商网络智能运维

在网络日常监控中,实现KPI的智能异常检测,并进行异常隐患的预测;对KPI异常、设备告警等多维数据融合分析,智能识别根因网元和故障,推荐故障恢复措施。KPI异常检测准确率85%,根因识别准确率90%,有效提升运维效率,保障用户体验。


6.2、数字园区智能运维

在园区、智慧工厂的5GWIFI网络中,采集网络传输、终端设备的性能、告警数据,实现网络性能智能监控与终端体验分析,故障提前预测,分钟级完成故障处理,保障生产设备实时在线,促进产线健康高效生产。


6.3、数据中心智能巡检

数据中心的网络规模大、设备布置分散,多厂商新老设备并存,较多设备无法联网支持在线监控,依赖运维人员定期巡视,效率低下,问题发现不及时。借助设备区域的监控图像,实施火情、关键设备开关与指示灯状态异常检测等,实现远程智能巡检。


6.4、IT应用健康监控

IT应用监控存在指标多,检测不准确,故障定界分析耗时等问题,通过采集IT应用日志,集成日志异常检测、KPI异常检测和根因定界等AI原子能力,实现接口时延、成功率等指标的实时异常监控,结合服务告警、调用链等信息,5分钟诊断故障根因,提升运维效率。

7、常见问题

7.1、用户的数据怎么对接到AIOps服务?

可以选择如下对接渠道:

  • OBS
  • 数据目录
  • 本地上传

更多渠道将陆续上线。

7.2、用户如何查看输出结果?

  • 用户可以通过DLV大屏能力,丰富的图形化来呈现结果。
  • 用户可以通过自助运维工作台,灵活的查询数据结果。

7.3、用户如何编排流程?

AIOps提供零编码流程编排能力,针对不同场景,可视化拖拽式编排:

  • 场景化灵活组合
    • 零编码,降低开发难度
    • 拖拽式原子流程编排
    • 预置20+原子能力
    • 集成50+通信领域AI算子&项目模板
    • 封装100+通信领域AI SDK
    • 集成RPA实现数据采集和结果推送
  • 扩展性强
    • 快速集成第三方原子能力
    • 支持自配置数据类型
  • 支持自定义处理脚本/视图 /记录集等

7.4、用户如何制作一个原子能力包?

AIOps提供上传自定义原子能力包的能力。

首先我们需要了解如何制作一个原子能力zip包,zip包内容和目录结构必须遵循如1所示,否则会上传失败。

1 zip包内容和目录结构

原子能力zip包目录结构

目录/文件

详细说明

来源

SampleDatas

存放初始的样例数据,供用户体验上传,可以为空。

可单击应用货架,单击原子能力列表页签,在原子能力列表页面中单击新建,在弹出的组件导入页面,选择配置文件参数对应的配置文件样例下载获取。

Others

预留目录,可以为空。

-

Model

存放通过模型训练生成的模型包。

通过模型训练生成模型包的具体步骤请参考快速入门

metadata.json

原子能力配置文件介绍如下文所示。

可单击应用货架,单击原子能力列表页签,在原子能力列表页面中单击新建,在弹出的组件导入页面,选择配置文件参数对应的配置文件样例下载获取样例模板metadata.json

原子能力配置文件介绍

  • 文件介绍

原子能力描述文件,是AIOps服务提供的配置文件。原子能力按要求配置注册后,AIOps服务就能准确识别各原子能力(包含原子能力基本信息,原子能力支持的数据结构,原子能力的标注信息,以及AIOps和原子能力之前的通信方式)。

7.5、APP启动无数据流

APP应用启动时数据对接连接后却无数据输出。原因是数据对接内未选择数据源。

    1、创建APP应用的时候未勾选数据源。

   2、双击数据对接,勾选数据源,单击确定

   3、如果数据源是灰色不给选择,请查看原子能力的输入数据类型和数据源的输出数据类型是否相同。

   4、选择正确的输入输出类型后,才会产生数据流。

    7.6、模板导入失败

    导入模板失败的原因可能是模板名称和版本已经存在,或者模板的内部json结构与样例文件的结构相同。

    1. 当上传名称已经存在的模板时,模板导入失败并提示模板名重复。

       2. 查看模板内的“templateName”字段名是否已存在与模板列表中

     

    8、成功案例

    • 华为南方工厂

    华为南方工厂的5G数字化园区,网络设备类型多,跨核心网、无线、传输多领域。出现故障时,要求分钟级响应,而人工处理时间达小时级。AIOps为华为南方工厂提供的网络体验与故障分析应用,实时采集工厂内跨领域设备的性能与告警数据,通过KPI异常检测、故障根因识别的AI能力,以及自定义的可视化大屏,实现设备故障分钟级精确识别与诊断,故障根因主动通知到运维人员,将故障处理周期缩短50%以上,显著提升了网络运维效率。


    9、总结

     AIOps平台是IT运营的下一代解决方案,IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因,而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度

    10、其它

    本文整理自华为云社区【内容共创】活动第13期。
    查看活动详情:https://bbs.huaweicloud.com/blogs/330939
    相关任务详情:任务10如何让机器听懂我的“警告”?网络AIOps应用实践

     

    【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。