War Room流程优化实践

举报
SRE确定性运维 发表于 2023/03/28 16:37:37 2023/03/28
【摘要】 针对客户故障应急响应流程不够完善问题,华为云通过结合自身War Room最佳实践,帮助客户实现War Room现有流程的优化规范、高效,为缩短MTTR关键指标奠定基础。

来源:《华为云SRE确定性运维专刊》第三期

11-1.PNG

本文作者:徐殿军/廖声伟

      某客户2021年完成华为公有云迁移入驻,涉及IaaS、Paas等业务。随着客户业务快速增长,对故障快速恢复诉求越来越高,因此需要建立一套快速恢复业务的War Room运作机制来支撑运维、研发、运营联合作战。华为云通过确定性运维规划与设计服务对现有的War Room启动、作战指挥、通报、关闭等关键活动做了详细的调研与评估,结合华为云War Room的最佳实践,为客户构建重大事件快速恢复的关键运维流程。

      一、现状调研与评估
      通过访谈问卷与查阅流程文档对客户现有的War Room运作关键活动做了现状调研与分析评估,识别了多个运作流程与规范上的问题:
      • 角色缺失,分工不明确;
      • War Room启动、作战指挥、通报、关闭的整体规范不足;
      • 标准动作缺失。
      二、War Room运作优化措施
      2.1 War Room关键角色和职责优化
      War Room运作的目的:为支撑重大事件有序管理,统一指挥重大事件的处理过程,及时有效协调资源,实现事故的快速响应、恢复和解决。与事件流程的关系:是事件流程的一部分,是为了快速恢复业务,不是为了问题分析。

12-1.PNG

     War Room主要角色和职责设计,明确War Room关键角色、各角色职责分工

12-2.PNG

      War Room触发条件规划

12-3.PNG

      2.2 War Room运作机制优化
 
    War Room运作流程规划,明确War Room启动、作战指挥、通报、关闭执行规范

12-4.PNG

      War Room执行恢复规划
      War Room组织形式
      War Room的组织形式包括语音会议及消息群组两个模式,由监控中心负责建立。语音会议划分两条线:一条线是业务恢复线,另一条线是通知通报线。
      War Room会议召集要求
      监控中心值班主动发现或接到启动通知后在X分钟内根据《War Room成员清单》拉起语音会议并组建群组。
      对于第一时间未能接通电话进入会议的人员,应根据会议通知在X分钟内接入电话电话会议。
      故障影响确认
      1)事件恢复责任人根据初步排查的业务影响范围,由对应的业务侧恢复成员评估后输出各自业务的影响。
      事件定级
      1)War Room启动后,War Room值班经理根据事件影响及事件定级标准对事件进行初步定级。对于事件影响无法快速判断的事件按照就高不就低原则进行初始定级。
      事件通报
      1)War Room值班经理应在事件定级完成后X分钟内发出首次通报,后续按照约X小时X次进行例行通报处理进展直至事件恢复,事件验证恢复后X分钟内发出事件恢复通报。
      2)事件处理过程中,影响面逐步扩大至符合更高级别,应进行升级通报。
      事件恢复原则
      1)War Room以事件恢复为第一要务。
      2)事故恢复RL与恢复成员在恢复方案上有冲突时,升级事故Leader决策。
      3)重大事件恢复要参照恢复的预案,按照恢复预案有序组织。
      War Room关闭
      1)事件恢复后转问题攻关
      2)事故恢复后关闭
      2.3 War Room标准动作Checklist
      明确标准动作checklist,将War Room启动、处理、结束后的动作规范起来,提升War Room的质量和效率。

12-5.PNG

      三、收益
      通过华为云SRE确定性运维规划与设计服务的实施落地,结合华为云War Room实践,A客户实现了War Room现有流程的完善优化,让紧急事件处理更加规范、高效,为缩短MTTR关键指标奠定基础。
      最终输出:
      《现状调研与分析评估报告》
      《War Room运作流程规范》
      《War Room标准动作checklist》
      《War Room恢复指导书规划》
      《War Room运作质检细则》

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。