【云驻共创】数字化转型时代,运维人员会失业吗?

举报
kaliarch 发表于 2021/08/03 12:55:00 2021/08/03
【摘要】 一 背景在数字化转型的时代,无论是电信运维或是IT运维,都面临这非常大的挑战,传统人工、工具化运维已经不能满足网络新需求,智能化转型的需求迫在眉睫。如今,AIOps已经成为智能化运维转型的核心手段,通过构建电信领域AIOps平台能力,快速实现智能运维升级,那么在这种背景下,运维人员会在新的浪潮中失业吗?二 需求挑战1.1 CT电信领域 新技术、新挑战、呼唤高度智能典型网络  以5G为代表的新...

背景

在数字化转型的时代,无论是电信运维或是IT运维,都面临这非常大的挑战,传统人工、工具化运维已经不能满足网络新需求,智能化转型的需求迫在眉睫。

如今,AIOps已经成为智能化运维转型的核心手段,通过构建电信领域AIOps平台能力,快速实现智能运维升级,那么在这种背景下,运维人员会在新的浪潮中失业吗?

需求挑战

1.1 CT电信领域 新技术、新挑战、呼唤高度智能典型网络

 

 

5G为代表的新技术为人民的生活带了了诸多便利,例如:大链接,低时延。

但是也带了了复杂性,例如:

  • 新老技术的共同存在,网络的复杂度非常高,四世同堂的技术并存;
  • 新需求:企业融入生产,对网络要求非常高,网络可靠性要求高;
  • 成本压力:运维成本高,能耗高。

1.2 IT领域,数字化转型时代,传统运维面临挑战

 

数字化转型时代,传统运维也面临巨大挑战,IT领域无论从硬件和软件规模,微服务领域都非常复杂,利用数据演进过程:

  1. 人工查询。
  2. 基于规则的运维。
  3. 大数据如何进行处理,成为挑战。

 

1.3 AI是提升电信网络自动化和智能化的关键技术

 

应对于大数据和挑战,如果利用AI提升电信网络自动化和智能化进程。

通过AI降低运维成本:

  1. 基站节能:在空闲的时段下,载波关闭,LSTM神经网络降低能耗。
  2. 核心网KPI异常检测:故障TOP原因为DNS解析失败,运营商的提前五个钟头发生故障提前报告,避免影响高峰用户体验。
  3. 故障识别及根因定位:无线基站网,重复派单问题,引发派单告警风暴,通过根因定位,使得故障收敛,快速定位问题并解决。

 

1.4 AI应用的阻碍

 

AI很好,那么运维人员会失业吗?AI应用的主要障碍:

1.4.1 模型

  • 企业成熟度:人员技能,数据范围或质量,治理或各种顾虑;
  • 恐惧未知:理解增益和用途,安全或隐私顾虑,衡量价值;
  • 寻找起点:寻找用例,制定策略;
  • 厂商策略:集成复杂度。

1.4.2 华为经验

  • AI应用开发门槛高
    • 缺乏AI算法开发人员;
    • 业务于算法结合难(算法和业务结合),运维人员排斥。
      • 业务人员学习算法。
    • 高质量数据收集难
    • 工程化开发要求高
  • AI应用开放周期长
    • 单一AI技术无法满足企业诉求,效果难体现,流程编排难度大。
    • 运维人员需要人工编码开放不同场景的AI应用,耗时耗力。

华为AIOps服务

 

目的:降低AI应用开放门槛,

底层:数据管理,采集,拓扑管理

原子能力:预测,检测,诊断,识别,每种原子能力都是经过过实际检验

框架编排能力:框架,流程

开箱即用APP:行业AI应用。

华为AIOps服务的三大能力价值可以总结为:

一是,支持通用数据源。支持Kafka、数据库、文件系统、Restful 等运维系统的主流数据对接方式,让数据上的来。采用数据治理SDK方式,将异构数据(时序数据、非结构化数据、文本数据等)治理成AIOps 原子能力标准输入数据,有效解决数据适配问题。

二是,有丰富的AIOps 原子能力。运维领域AI模型和算法具有开发门槛高,开发周期长的特点,重复开发公共能力,造成资源浪费。华为通过沉淀核心AI资产,采用自主研发+生态合作相结合的方式,提供数字化基础组件,提高AI应用开发效率,降低AI开发门槛。通过行业知识与AI算法融合,优化和自研AI算法,内置电信领域业务模型参数,支持设计态的泛化,运行态的调优。此外,华为AIOps服务 原子能力模型统一标准,使得原子能力可串接。

三是,场景组合编排与DevOps。通过编排能力,不需要写代码,只需可视化的拖拽式编排,降低AI快速开发应用的门槛。

2.1 多场景数据采集治理,提升数据开发效率

 

设备不同,数据格式,接口不同,

  • 丰富的数据采集能力:
  • 高效数据治理能力:
  • 智能辅助数据标注能力:

2.2 20+原子能力覆盖预测、检测、诊断、识别等网络运维场景

 

四大场景:

目标:不仅仅是算法的实现,而是通过实际经验的优选。华为专家的经验融入其中,并支出开放能力。

2.3 零编码场景化流程编排,支持合作伙伴低门槛快速开放AI应用

 

AIOps提供零编码流程编排能力,针对不同场景,可视化拖拽式编排,大幅提升运维人员AI应用开发效率。

2.4 前台灵活编排,大屏按需定制,运维效果实时可视

 

轻松搭建可视化大屏,业务结果快速呈现,满足项目复杂需求,有效提升运维管理效率。

2.5 RPA助理AIOps对接现有运维系统

  

故障恢复,RPA(机器人流程自动化)完成跨系统数据对接,数据搬运,工单发放,消息通知等,提升企业运维效率。

  • 工单系统对接
  • 自恢复
  • 问题单

2.6 10+开箱即用APP,支持快速部署

 

KPI异常检测APP,5步实现告警预警,覆盖全场景,灵活部署,开发生态。

AIOps SAAS监控监控

4.1 微服务架构下的故障

问题:

  • 故障特征
    • 微服务通过调用关系和共享基础设施相互影响,常常多个微服务同时故障。
    • 故障发出异常实际,数据量大,信息少。
  • 故障处理思路
    • 多模态数据异常检测,发现异常事件
    • 疆同一故障触发异常事件聚合在一起
    • 如有多个异常微服务,进行故障定界,找出根因微服务
    • 对根因微服务,进行故障定位,找出故障根因
    • 对接故障处理流程,进行故障恢复

解决

  • 故障根因
    • 微服务外部
      • 调用链传播
      • 基础设施传播
    • 微服务内部
      • 软件bug
      • 配置问题
      • 其他

4.2 典型场景:SaaS从故障发现道根因定位

 

对象:云服务

指标:接口

数据:多种数据,多模态数据

流程:采集数据->对接->提取->异常检测->汇聚识别->根因定界->故障诊断

4.3 高精度,融合多种KPI智能检测算法,可致辞10万+同时检测

 

KPI异常检测,整体流程如下:

全量KPI指标->属性分析->数据预处理->异常检测->异常显著度->异常告警->异常指标关

传统人工设置指标值,多个指标无法联合

4.4 大规模服务及其,海量日志实时检测,性能达40万条/秒

 

故障发生:

  • 提取模版,匹配模版(事件),提取日期,事件,变量和常量。
  • 基于实际窗内的模版判断。
  • 推荐出异常时间窗内的top根因日志。

故障发现:日志词频,日志检测。

故障分析:异常特征,关键日志推荐,日志展示,反馈。

4.5 事件聚合

 

  • 根据事件发生时间聚合,支持事件乱序到达
  • 时间窗大小可配置
  • 先通知,后追加机制,兼顾及时性与完整性

4.6 基于调用链的故障定界

 

局域调用链,定界根因微服务。

trace日志->调用链实时提取->调用链分析

4.7 故障定位

 

根因定位为独立原子能力,训练态与推理态合一

根因发现定位,采用随机游走

演译推理。

AIOps建议

5.1 AIOps部署建议-选定成熟场景,循序渐进部署AIOps

 

原因:

  • 数据上不来,数据质量低下
  • 命令下不去,缺乏自动化运维工具,不能主动检测,恢复操作
  • 模型不智能:不能有效积累日常运维中标注信息,不能实现模型自学习

建议:

  • 成熟场景出发,循序渐进推进部署,容错场景
  • 数据上的来
  • 命令下的去:对接后端工具
  • 有效积累标注数据。

运维人员拥抱AI是大势所趋。拥抱AI,对于自身的成长进阶也有积极意义。如果坚守故土一成不变,可能会面临时代带来的新挑战。

本文整理自:【内容共创系列】华为云签约作者征集令,认证签约作者赢取专属权益!

查看活动详情:https://bbs.huaweicloud.com/blogs/281988

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。