华为云“数智”化运维

举报
SRE确定性运维 发表于 2022/06/22 15:27:44 2022/06/22
【摘要】 本文由2022CCF国际AIOps挑战赛线上宣讲会中,演讲的资料整理而成,主要介绍了华为云在落地AIOps能力的探索与实践经验。

作者:王峰 

       为支撑华为云业务的快速增长,华为云运维体系建设主要可以分三个阶段:2016年—2017年,实现运维工具化,通过分散的各类小工具维护应对小体量的服务器规模,但随着业务规模的快速增长,单靠工具化手段已无法满足。2018年-2019年,构建运维自动化平台,基于场景构建自动化运维体系,开始落地AIOps能力。2020年至今,通过AI加持下的智能运维平台,在运维活动多个价值场景下进行应用,进入运维智能化。

1.PNG

       业界把智能运维分成L1到L5几个阶段,以服务器规模增长作为指数,10台以下的服务器,通过简单的专家经验、脚本和人工方式来运维。100台规模,使用多个独立工具,让大部分工作实现工具化、流程化基本就可以满足运维所需。但当服务器规模逐渐上升至十万、百万时,运维人力又无法随着规模快速增长时,必须考虑基于数据和智能化手段来提升运维效率、质量、成本。DevOps阶段,主要是进行单点智能化能力落地,通过数据关联进一步串联多种单点能力,实现部分场景的高度自动化。AIOps阶段,在提升质量、效率、成本方面全面落地智能化手段,比如通过AI进行分析和决策、无人值守的变更,以及通过数据可视化分析来辅助智能决策。
      每个阶段,我们希望提升人均运维服务器的数量,阶段越高,决策执行会越依赖于系统的自动化、智能化,对人的依赖度降低。

2.PNG

      如果大家关注Gartner每年的人工智能成熟度曲线的变化可以看到AIOps平台的发展变化,已经从2017年的创新萌芽期,发展到2021年进入到成熟期前的谷底期。Gartner预测2-5年会进入成熟期。同时从每年的报告中可以看到G AIOPS的研究方向2021年相比2017年给出了更加细化的落地场景,通过德勤的调研报告可以看出AIOps的Top5场景主要是:智能告警、根因分析、异常检测、容量优化和故障自愈。

3.PNG

      AIOps落地策略
      对于AIOps落地策略,华为云主要从组织、数据和平台三方面来考虑。
      ·组织:由用户、产品化团队和技术团队三方组成AIOps落地项目团队。针对价值场景定义明确的项目目标,制定可行的技术方案;通过现网的应用落地与效果反馈,不断进行优化迭代达成最终的业务价值。
      ·数据:应用场景的数据质量直接影响着最终的落地效果,因此需要围绕场景,采集完备的数据;通过业务流程与案例积累满足算法研究所需的样本;通过数据治理,规范化存储管理数据。
      ·AI平台:通过AIOps平台构建MLOPS能力,提升AIOps场景落地的效率;支撑组织利用数据实现AIOps场景落地现网,并通过现网业务效果反馈与模型监控持续优化迭代完善。
      那么,什么场景适合落地AIOps?这些场景具备哪些特点?我们总结了几点:
      ·基于数据解决人的判断准确性问题;
      ·基于已知事件挖掘数据之间的隐藏关系;
      ·基于历史数据对当前数据做推断;
      ·基于数据进行自动分析与辅助决策;
      ·基于历史数据与经验对未来进行预测。
      同时,我们将应用流程分为三个阶段:首先由SRE提出业务需求的痛点问题,进行定量分析、需求转化,确定对应的案例数据;然后由数据科学家做数据特征分析,开发算法模型;最后由产品化团队把算法模型进行产品化落地。
      我们从价值、场景、技术方案、平台算法和数据五个部分对智能运维进行了整体规划。像故障发现、故障定位、根源分析、故障规避、智能变更、智能客服、智能调度等重要场景,大部分已实现了产品化落地。值得一提的是,华为云基于ModelArts构建了服务上层智能运维场景的AIOps平台,通过平台能力加速场景的开发与落地速度。

4.PNG

      AIOps能力构建
      下面展开来具体讲下故障生命周期中的相关AIOps能力:
      异常检测
      告警量大、告警精度低,一直是运维人员最为头疼的事情。我们希望通过异常检测实现自适应、免维护,来解决传统的静态阈值无法精准告警的痛点。
自适应是指对不同的指标特征自动适应检测的需求,自动感知周期性指标,使告警不受季节性变化干扰。免维护是指无需算法人员手动调整参数和配置参数,智能调参解决运维人员无法配置的模型参数。此外,算法模型压缩,大幅降低了模型在训练时的资源开销问题。

5.PNG

      智能告警
     如何实现告警降噪?首先进行告警分类,使用算法对持续告警、波动告警、因果告警等进行自动聚类,然后再匹配不同的算法方案进行压缩。常用的FP-growth,可以挖掘关联告警的频繁关系,通过模式挖掘和滑窗方式来检测,以达到告警降噪。如果要实现更准确的告警压缩,还要结合拓扑空间数据,进一步识别根因告警,提升故障处理效率。

      智能故障定位
      多指标定位算法能够精准识别出引发故障的相关性指标,SRE通过该指标快速定界故障,实现故障快速恢复;日志定位首先提取日志模板,通过检测异常模板来识别出对应的异常故障节点相关日志报错信息,减少日志分析时间;结合指标、日志,调用链可以实现多数据源根因定位,该方式是通过请求方、链路方式运作的业务场景。

6.PNG


      智能故障自愈
      故障自愈是指无需人工干预,自动完成故障隔离恢复。但此场景有很大局限性,核心能力包括如下方面:
      ·自动化驱动:多源故障流程驱动,适配各种故障场景。
      ·智能诊断:一一诊断可能诱发故障的因素,确定引发故障的根因。
      ·快速自愈:根据诊断结果,分钟级自动化处理故障,恢复客户业务。
      ·安全可靠:提供流控+底线场景+灰度机制,防雪崩。
      以硬件故障自动化诊断&自愈为例,AIOPS系统预测内存即将引发主机宕机场景,自愈平台收到对应预测告警后会启动诊断机制,判定并且执行对应的自愈动作。当自愈流程时间较短时,对客户产生的影响非常小,甚至可以做到客户无感知。
通过当前硬件故障自愈能力,可实现5分钟级硬件故障诊断&自动化处理(从告警上报到故障恢复仅需5分钟),极大减小故障对客户的业务影响。不过自愈并非每次都能生效,在发现故障到处理的所有逻辑都满足的条件下,才会触发自愈流程。


7.PNG

      以上是华为云在故障生命周期中所做的AIOps实践,在这个过程中我们总结了四条主要的经验:

      ·Data First:数据质量是AIOps落地成功的必要条件,样本数据与现网反馈决定了模型的质量与效果,完备的数据才能在特征工程阶段发现有效的特征。
      ·工程落与算法一样重要:不能低估工程的难度与重要性,算法不能解决的问题从工程方案上进行弥补。比如内存中一些无法预测的场景,通过工程化手段来弥补,同时要持续监控运营算法模型在实际中的表现,及时发现劣化现象并实施优化。
      ·现网可用性比算法技术指标更重要:我们需要考虑算法与产品整合以后的整体可用性,因为现网不是实验室,产品落地后的产品质量与稳定性会影响AI技术的推广与应用,所以现网可用性非常重要。
      ·需要考虑算法落地成本:需要充分评估算法效率与推理的数据规模,数据规模与算法效率决定了应用资源成本。

8.PNG

      最后,希望我们的实践经验,能够给正在或即将落地AIOps的朋友带来帮助。华为将继续致力于把数字世界带给所有人,构建万物互联的智能世界。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200