- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

华为云“数智”化运维

华为云确定性运维发表于 2022/06/22 15:27:44 2022/06/22

【摘要】本文由2022CCF国际AIOps挑战赛线上宣讲会中，演讲的资料整理而成，主要介绍了华为云在落地AIOps能力的探索与实践经验。

作者：王峰

为支撑华为云业务的快速增长，华为云运维体系建设主要可以分三个阶段：2016年—2017年，实现运维工具化，通过分散的各类小工具维护应对小体量的服务器规模，但随着业务规模的快速增长，单靠工具化手段已无法满足。2018年-2019年，构建运维自动化平台，基于场景构建自动化运维体系，开始落地AIOps能力。2020年至今，通过AI加持下的智能运维平台，在运维活动多个价值场景下进行应用，进入运维智能化。

业界把智能运维分成L1到L5几个阶段，以服务器规模增长作为指数，10台以下的服务器，通过简单的专家经验、脚本和人工方式来运维。100台规模，使用多个独立工具，让大部分工作实现工具化、流程化基本就可以满足运维所需。但当服务器规模逐渐上升至十万、百万时，运维人力又无法随着规模快速增长时，必须考虑基于数据和智能化手段来提升运维效率、质量、成本。DevOps阶段，主要是进行单点智能化能力落地，通过数据关联进一步串联多种单点能力，实现部分场景的高度自动化。AIOps阶段，在提升质量、效率、成本方面全面落地智能化手段，比如通过AI进行分析和决策、无人值守的变更，以及通过数据可视化分析来辅助智能决策。
每个阶段，我们希望提升人均运维服务器的数量，阶段越高，决策执行会越依赖于系统的自动化、智能化，对人的依赖度降低。

如果大家关注Gartner每年的人工智能成熟度曲线的变化可以看到AIOps平台的发展变化，已经从2017年的创新萌芽期，发展到2021年进入到成熟期前的谷底期。Gartner预测2-5年会进入成熟期。同时从每年的报告中可以看到G AIOPS的研究方向2021年相比2017年给出了更加细化的落地场景，通过德勤的调研报告可以看出AIOps的Top5场景主要是：智能告警、根因分析、异常检测、容量优化和故障自愈。

AIOps落地策略
对于AIOps落地策略，华为云主要从组织、数据和平台三方面来考虑。
·组织：由用户、产品化团队和技术团队三方组成AIOps落地项目团队。针对价值场景定义明确的项目目标，制定可行的技术方案；通过现网的应用落地与效果反馈，不断进行优化迭代达成最终的业务价值。
·数据：应用场景的数据质量直接影响着最终的落地效果，因此需要围绕场景，采集完备的数据；通过业务流程与案例积累满足算法研究所需的样本；通过数据治理，规范化存储管理数据。
·AI平台：通过AIOps平台构建MLOPS能力，提升AIOps场景落地的效率；支撑组织利用数据实现AIOps场景落地现网，并通过现网业务效果反馈与模型监控持续优化迭代完善。
那么，什么场景适合落地AIOps？这些场景具备哪些特点？我们总结了几点：
·基于数据解决人的判断准确性问题；
·基于已知事件挖掘数据之间的隐藏关系；
·基于历史数据对当前数据做推断；
·基于数据进行自动分析与辅助决策；
·基于历史数据与经验对未来进行预测。
同时，我们将应用流程分为三个阶段：首先由SRE提出业务需求的痛点问题，进行定量分析、需求转化，确定对应的案例数据；然后由数据科学家做数据特征分析，开发算法模型；最后由产品化团队把算法模型进行产品化落地。
我们从价值、场景、技术方案、平台算法和数据五个部分对智能运维进行了整体规划。像故障发现、故障定位、根源分析、故障规避、智能变更、智能客服、智能调度等重要场景，大部分已实现了产品化落地。值得一提的是，华为云基于ModelArts构建了服务上层智能运维场景的AIOps平台，通过平台能力加速场景的开发与落地速度。

AIOps能力构建
下面展开来具体讲下故障生命周期中的相关AIOps能力：
异常检测
告警量大、告警精度低，一直是运维人员最为头疼的事情。我们希望通过异常检测实现自适应、免维护，来解决传统的静态阈值无法精准告警的痛点。
自适应是指对不同的指标特征自动适应检测的需求，自动感知周期性指标，使告警不受季节性变化干扰。免维护是指无需算法人员手动调整参数和配置参数，智能调参解决运维人员无法配置的模型参数。此外，算法模型压缩，大幅降低了模型在训练时的资源开销问题。

智能告警
如何实现告警降噪？首先进行告警分类，使用算法对持续告警、波动告警、因果告警等进行自动聚类，然后再匹配不同的算法方案进行压缩。常用的FP-growth，可以挖掘关联告警的频繁关系，通过模式挖掘和滑窗方式来检测，以达到告警降噪。如果要实现更准确的告警压缩，还要结合拓扑空间数据，进一步识别根因告警，提升故障处理效率。

智能故障定位
多指标定位算法能够精准识别出引发故障的相关性指标，SRE通过该指标快速定界故障，实现故障快速恢复；日志定位首先提取日志模板，通过检测异常模板来识别出对应的异常故障节点相关日志报错信息，减少日志分析时间；结合指标、日志，调用链可以实现多数据源根因定位，该方式是通过请求方、链路方式运作的业务场景。

智能故障自愈
故障自愈是指无需人工干预，自动完成故障隔离恢复。但此场景有很大局限性，核心能力包括如下方面：
·自动化驱动：多源故障流程驱动，适配各种故障场景。
·智能诊断：一一诊断可能诱发故障的因素，确定引发故障的根因。
·快速自愈：根据诊断结果，分钟级自动化处理故障，恢复客户业务。
·安全可靠：提供流控+底线场景+灰度机制，防雪崩。
以硬件故障自动化诊断&自愈为例，AIOPS系统预测内存即将引发主机宕机场景，自愈平台收到对应预测告警后会启动诊断机制，判定并且执行对应的自愈动作。当自愈流程时间较短时，对客户产生的影响非常小，甚至可以做到客户无感知。
通过当前硬件故障自愈能力，可实现5分钟级硬件故障诊断&自动化处理（从告警上报到故障恢复仅需5分钟），极大减小故障对客户的业务影响。不过自愈并非每次都能生效，在发现故障到处理的所有逻辑都满足的条件下，才会触发自愈流程。

以上是华为云在故障生命周期中所做的AIOps实践，在这个过程中我们总结了四条主要的经验：

·Data First：数据质量是AIOps落地成功的必要条件，样本数据与现网反馈决定了模型的质量与效果，完备的数据才能在特征工程阶段发现有效的特征。
·工程落与算法一样重要：不能低估工程的难度与重要性，算法不能解决的问题从工程方案上进行弥补。比如内存中一些无法预测的场景，通过工程化手段来弥补，同时要持续监控运营算法模型在实际中的表现，及时发现劣化现象并实施优化。
·现网可用性比算法技术指标更重要：我们需要考虑算法与产品整合以后的整体可用性，因为现网不是实验室，产品落地后的产品质量与稳定性会影响AI技术的推广与应用，所以现网可用性非常重要。
·需要考虑算法落地成本：需要充分评估算法效率与推理的数据规模，数据规模与算法效率决定了应用资源成本。

最后，希望我们的实践经验，能够给正在或即将落地AIOps的朋友带来帮助。华为将继续致力于把数字世界带给所有人，构建万物互联的智能世界。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

华为云“数智”化运维

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

华为云“数智”化运维

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品