告警优化专家经验与工具固化实践

举报
华为云确定性运维 发表于 2023/09/08 15:22:30 2023/09/08
【摘要】 本案例基于常见的告警问题场景分析,通过正向分析法和逆向分析法等相关优化措施,构建智能运维告警平台,有效降低告警工单90%+。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG




      在业务系统数据量日益增长的情况下,告警分析、根因定位难度随之增大。传统人工方式很难对海量告警进行快速分析与定位根因性告警,通过构建智能运维告警平台,针对各种监控场景实现智能、全量、高精度的把控,减少99%的无效告警和手工重复工作,可以实现告警事件全生命周期的统一闭环管理。

业务现状.PNG




     告警业务面临的挑战:
      » 业务系统复杂:由子系统和系统组成超系统,系统间关联调用复杂,运维面临多重压力;
      » 告警数量巨大:每天都有成千上万的告警等待Oncall处理,运维人员难以负荷,处理效率亟待提升;
      » 自动化率低:自动化与手工处理交错,无法按照告警处理逻辑实现自动化处理;
      » 手工操作风险高:依靠人员操作,在“疲劳驾驶”和“没有驾照”情况下易出错;
      » 告警效率低:大量无效告警干扰运维资源投入,真正的告警容易被忽视。

方案实践.PNG



     

      在海量告警优化实践中,通过制度和流程的制定及优化,逐步将运维工作数字化和规范化,提高运维工作的效率,解决运维工作中遇到的问题。

      1、告警场景问题分析
      在实际业务场景中常会遇到的问题分析如下:

19.JPG

      2、正向分析法优化措施
      从告警本身的目的、逻辑、存在合理性思考,具体如下表所示,此项优化可降低30%的告警工单:

20.JPG

      3、逆向分析法优化措施      

      从告警处理者思维、处理动作、告警周边因素思考,具体如下表所示,此项优化可降低50%的告警工单:22.JPG

      其它实现告警降级的措施:

23.JPG

      4、智能运维平台支撑告警优化

      通过构建的智能运维平台,从闪断、震荡、汇聚、升降级、相关性分析、自动屏蔽和自动恢复等多个维度对告警进行优化降量,从而减少单位时间内海量重复告警,避免了对SRE的干扰。
      智能运维平台使用,常见场景举例:
      » 配置信息,识别告警对象的分类、区域、运行模式,虚拟机告警自动判断存在硬件故障,检查集群功能正常后等待容量恢复;
      » 根据虚拟机集群状态,黑盒部署情况,实现告警降级,或自动传递事件拉起Warroom;
      » 物理机自动隔离主机恢复故障,自动屏蔽告警,异常情况自动通知人工介入,通过工具一键式恢复。

24.JPG

25.JPG

26.JPG

      提升服务SLA指标
      通过告警优化提升服务SLA指标,实现告警量规模下降、告警及时受理率、告警及时恢复率、工单及时闭环率等指标都有所优化。在消除了大部分干扰后,核心问题可以快速发现、快速定界、快速恢复,有效缩短客户业务平均恢复时长MTTR。
      提升运维团队效率
      降低运维团队业务压力,帮助运维人员减少被动响应,增加主动优化,高效保障系统的稳定性和业务连续性。
      提升运维质量
      实现告警处理的操作自动化、流程化、规范化,持续降低信息不一致风险,进而降低手工运维操作风险。
      提升用户体验
      通过智能运维平台和方法,打通底层的故障告警自愈能力和业务层高可靠的壁垒,实现业务自动快速恢复,优于运维人员手工修复时长。

案例总结.PNG



     

      基于常见的告警问题场景分析,通过正向分析法和逆向分析法相关优化措施,建立智能运维体系,提升业务价值,覆盖运维全领域,实现运维数字化,将各个系统的信息整合,让运维人员在一个平台上接收、处理所有告警通知,有效降低告警工单90%+,该方案已经在几十家中大型企业得到成功部署和运行。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。