- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

告警优化专家经验与工具固化实践

华为云确定性运维发表于 2023/09/08 15:22:30 2023/09/08

【摘要】本案例基于常见的告警问题场景分析，通过正向分析法和逆向分析法等相关优化措施，构建智能运维告警平台，有效降低告警工单90%+。

文章来源：《华为云确定性运维案例集（稳定可靠篇）》

在业务系统数据量日益增长的情况下，告警分析、根因定位难度随之增大。传统人工方式很难对海量告警进行快速分析与定位根因性告警，通过构建智能运维告警平台，针对各种监控场景实现智能、全量、高精度的把控，减少99%的无效告警和手工重复工作，可以实现告警事件全生命周期的统一闭环管理。

告警业务面临的挑战：
» 业务系统复杂：由子系统和系统组成超系统，系统间关联调用复杂，运维面临多重压力；
» 告警数量巨大：每天都有成千上万的告警等待Oncall处理，运维人员难以负荷，处理效率亟待提升；
» 自动化率低：自动化与手工处理交错，无法按照告警处理逻辑实现自动化处理；
» 手工操作风险高：依靠人员操作，在“疲劳驾驶”和“没有驾照”情况下易出错；
» 告警效率低：大量无效告警干扰运维资源投入，真正的告警容易被忽视。

在海量告警优化实践中，通过制度和流程的制定及优化，逐步将运维工作数字化和规范化，提高运维工作的效率，解决运维工作中遇到的问题。

1、告警场景问题分析
在实际业务场景中常会遇到的问题分析如下：

2、正向分析法优化措施
从告警本身的目的、逻辑、存在合理性思考，具体如下表所示，此项优化可降低30%的告警工单：

3、逆向分析法优化措施

从告警处理者思维、处理动作、告警周边因素思考，具体如下表所示，此项优化可降低50%的告警工单：

其它实现告警降级的措施：

4、智能运维平台支撑告警优化

通过构建的智能运维平台，从闪断、震荡、汇聚、升降级、相关性分析、自动屏蔽和自动恢复等多个维度对告警进行优化降量，从而减少单位时间内海量重复告警，避免了对SRE的干扰。
智能运维平台使用，常见场景举例：
» 配置信息，识别告警对象的分类、区域、运行模式，虚拟机告警自动判断存在硬件故障，检查集群功能正常后等待容量恢复；
» 根据虚拟机集群状态，黑盒部署情况，实现告警降级，或自动传递事件拉起Warroom；
» 物理机自动隔离主机恢复故障，自动屏蔽告警，异常情况自动通知人工介入，通过工具一键式恢复。

提升服务SLA指标
通过告警优化提升服务SLA指标，实现告警量规模下降、告警及时受理率、告警及时恢复率、工单及时闭环率等指标都有所优化。在消除了大部分干扰后，核心问题可以快速发现、快速定界、快速恢复，有效缩短客户业务平均恢复时长MTTR。
提升运维团队效率
降低运维团队业务压力，帮助运维人员减少被动响应，增加主动优化，高效保障系统的稳定性和业务连续性。
提升运维质量
实现告警处理的操作自动化、流程化、规范化，持续降低信息不一致风险，进而降低手工运维操作风险。
提升用户体验
通过智能运维平台和方法，打通底层的故障告警自愈能力和业务层高可靠的壁垒，实现业务自动快速恢复，优于运维人员手工修复时长。

基于常见的告警问题场景分析，通过正向分析法和逆向分析法相关优化措施，建立智能运维体系，提升业务价值，覆盖运维全领域，实现运维数字化，将各个系统的信息整合，让运维人员在一个平台上接收、处理所有告警通知，有效降低告警工单90%+，该方案已经在几十家中大型企业得到成功部署和运行。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

告警优化专家经验与工具固化实践

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

告警优化专家经验与工具固化实践

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品