告警优化专家经验与工具固化实践
文章来源:《华为云确定性运维案例集(稳定可靠篇)》
在业务系统数据量日益增长的情况下,告警分析、根因定位难度随之增大。传统人工方式很难对海量告警进行快速分析与定位根因性告警,通过构建智能运维告警平台,针对各种监控场景实现智能、全量、高精度的把控,减少99%的无效告警和手工重复工作,可以实现告警事件全生命周期的统一闭环管理。
告警业务面临的挑战:
» 业务系统复杂:由子系统和系统组成超系统,系统间关联调用复杂,运维面临多重压力;
» 告警数量巨大:每天都有成千上万的告警等待Oncall处理,运维人员难以负荷,处理效率亟待提升;
» 自动化率低:自动化与手工处理交错,无法按照告警处理逻辑实现自动化处理;
» 手工操作风险高:依靠人员操作,在“疲劳驾驶”和“没有驾照”情况下易出错;
» 告警效率低:大量无效告警干扰运维资源投入,真正的告警容易被忽视。
在海量告警优化实践中,通过制度和流程的制定及优化,逐步将运维工作数字化和规范化,提高运维工作的效率,解决运维工作中遇到的问题。
1、告警场景问题分析
在实际业务场景中常会遇到的问题分析如下:
2、正向分析法优化措施
从告警本身的目的、逻辑、存在合理性思考,具体如下表所示,此项优化可降低30%的告警工单:
3、逆向分析法优化措施
从告警处理者思维、处理动作、告警周边因素思考,具体如下表所示,此项优化可降低50%的告警工单:
其它实现告警降级的措施:
4、智能运维平台支撑告警优化
通过构建的智能运维平台,从闪断、震荡、汇聚、升降级、相关性分析、自动屏蔽和自动恢复等多个维度对告警进行优化降量,从而减少单位时间内海量重复告警,避免了对SRE的干扰。
智能运维平台使用,常见场景举例:
» 配置信息,识别告警对象的分类、区域、运行模式,虚拟机告警自动判断存在硬件故障,检查集群功能正常后等待容量恢复;
» 根据虚拟机集群状态,黑盒部署情况,实现告警降级,或自动传递事件拉起Warroom;
» 物理机自动隔离主机恢复故障,自动屏蔽告警,异常情况自动通知人工介入,通过工具一键式恢复。
提升服务SLA指标
通过告警优化提升服务SLA指标,实现告警量规模下降、告警及时受理率、告警及时恢复率、工单及时闭环率等指标都有所优化。在消除了大部分干扰后,核心问题可以快速发现、快速定界、快速恢复,有效缩短客户业务平均恢复时长MTTR。
提升运维团队效率
降低运维团队业务压力,帮助运维人员减少被动响应,增加主动优化,高效保障系统的稳定性和业务连续性。
提升运维质量
实现告警处理的操作自动化、流程化、规范化,持续降低信息不一致风险,进而降低手工运维操作风险。
提升用户体验
通过智能运维平台和方法,打通底层的故障告警自愈能力和业务层高可靠的壁垒,实现业务自动快速恢复,优于运维人员手工修复时长。
基于常见的告警问题场景分析,通过正向分析法和逆向分析法相关优化措施,建立智能运维体系,提升业务价值,覆盖运维全领域,实现运维数字化,将各个系统的信息整合,让运维人员在一个平台上接收、处理所有告警通知,有效降低告警工单90%+,该方案已经在几十家中大型企业得到成功部署和运行。
- 点赞
- 收藏
- 关注作者
评论(0)