War Room流程优化实践
来源:《华为云SRE确定性运维专刊》第三期
本文作者:徐殿军/廖声伟
某客户2021年完成华为公有云迁移入驻,涉及IaaS、Paas等业务。随着客户业务快速增长,对故障快速恢复诉求越来越高,因此需要建立一套快速恢复业务的War Room运作机制来支撑运维、研发、运营联合作战。华为云通过确定性运维规划与设计服务对现有的War Room启动、作战指挥、通报、关闭等关键活动做了详细的调研与评估,结合华为云War Room的最佳实践,为客户构建重大事件快速恢复的关键运维流程。
一、现状调研与评估
通过访谈问卷与查阅流程文档对客户现有的War Room运作关键活动做了现状调研与分析评估,识别了多个运作流程与规范上的问题:
• 角色缺失,分工不明确;
• War Room启动、作战指挥、通报、关闭的整体规范不足;
• 标准动作缺失。
二、War Room运作优化措施
2.1 War Room关键角色和职责优化
War Room运作的目的:为支撑重大事件有序管理,统一指挥重大事件的处理过程,及时有效协调资源,实现事故的快速响应、恢复和解决。与事件流程的关系:是事件流程的一部分,是为了快速恢复业务,不是为了问题分析。
War Room主要角色和职责设计,明确War Room关键角色、各角色职责分工
War Room触发条件规划
2.2 War Room运作机制优化
War Room运作流程规划,明确War Room启动、作战指挥、通报、关闭执行规范
War Room执行恢复规划
War Room组织形式
War Room的组织形式包括语音会议及消息群组两个模式,由监控中心负责建立。语音会议划分两条线:一条线是业务恢复线,另一条线是通知通报线。
War Room会议召集要求
监控中心值班主动发现或接到启动通知后在X分钟内根据《War Room成员清单》拉起语音会议并组建群组。
对于第一时间未能接通电话进入会议的人员,应根据会议通知在X分钟内接入电话电话会议。
故障影响确认
1)事件恢复责任人根据初步排查的业务影响范围,由对应的业务侧恢复成员评估后输出各自业务的影响。
事件定级
1)War Room启动后,War Room值班经理根据事件影响及事件定级标准对事件进行初步定级。对于事件影响无法快速判断的事件按照就高不就低原则进行初始定级。
事件通报
1)War Room值班经理应在事件定级完成后X分钟内发出首次通报,后续按照约X小时X次进行例行通报处理进展直至事件恢复,事件验证恢复后X分钟内发出事件恢复通报。
2)事件处理过程中,影响面逐步扩大至符合更高级别,应进行升级通报。
事件恢复原则
1)War Room以事件恢复为第一要务。
2)事故恢复RL与恢复成员在恢复方案上有冲突时,升级事故Leader决策。
3)重大事件恢复要参照恢复的预案,按照恢复预案有序组织。
War Room关闭
1)事件恢复后转问题攻关
2)事故恢复后关闭
2.3 War Room标准动作Checklist
明确标准动作checklist,将War Room启动、处理、结束后的动作规范起来,提升War Room的质量和效率。
三、收益
通过华为云SRE确定性运维规划与设计服务的实施落地,结合华为云War Room实践,A客户实现了War Room现有流程的完善优化,让紧急事件处理更加规范、高效,为缩短MTTR关键指标奠定基础。
最终输出:
《现状调研与分析评估报告》
《War Room运作流程规范》
《War Room标准动作checklist》
《War Room恢复指导书规划》
《War Room运作质检细则》
- 点赞
- 收藏
- 关注作者
评论(0)