综合可用性方案 保障机房重大风险时业务零中断

举报
SRE确定性运维 发表于 2023/09/08 14:43:18 2023/09/08
【摘要】 本案例介绍机房高温故障恢复实践案例,通过建设高效稳定的监控告警系统、标准规范的故障管理体系和故障演练平台,实现故障精准定位,快速恢复,保障机房出现重大风险时业务零中断。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》


业务背景.PNG





      随着企业业务量的快速增长、故障场景量级增多、故障影响面逐渐扩大,一旦出现重大故障,必然会对现网业务产生严重影响,保障业务稳定运行,对运维部门来说也是极大的挑战。因此,故障的快速恢复已经成为企业云上运维的关键因素。实现快速故障恢复,需要在标准化和自动化投入更多的思考:如何快速精准定位故障,提升运维团队的诊断能力和定位故障能力? 如何缩短恢复时间,减少故障对业务的影响?如何实现关键场景自愈能力?如何检验平台的应对故障的能力? 如何通过自动化工具来简化故障处理流程?如上这些关键要素在故障恢复的能力开发中,都需着重解决。


业务现状.PNG





      当前业务面临的主要挑战如下:
      1、故障定位困难,故障范围不可控
      当系统出现故障时,需要花费大量的时间和精力进行故障排查,事故恢复不可视不可控,资源成本较高,节假日业务峰值不可控,存在极大的风险。
      2、恢复时间过长,故障无法及时发现与恢复
      恢复预案不完备,恢复实施过程中无法监测,执行过程和结果全程人工判断不可信,导致MTTR时间长。
      3、处理效率低下,缺乏完备的故障管理体系
      无完整体系化的恢复预案,应急场景获取效率低,缺少全局决策逻辑,依赖集体决策,无法进行全局状态和影响性的最优评估。
      4、缺乏自动化工具,故障不可控,无法提前预知隐患
      缺乏通过程序化的方式定位故障、修改问题,无法实时监控系统的运行情况,无法提前识别出风险,消除隐患。
方案实践.PNG


      2023年某日,某机房空调制冷故障导致机房高温,业务面临重大风险,通过及时的干冰降温方案及业务应急预案的及时处置,最终业务0中断。
      事件过程:

16.JPG

     1、站点可视

      (1)构建站点数字化平台,全面可视的监控告警体系,机房高温故障及时发现并启动预案。
      (2)完整的监控指标,多维度展示能力,故障快速定位以及故障预警,第一时间检查机房供电和制冷设备运行情况。
      支撑平台(CMC、Mnet、CMA):
      CloudMonitorCenter(CMC),是一套能够对目标设备进行监控的系统。通过CloudMonitorCenter系统可以收集所监控设备的指标信息及运行状态信息。及时对超标指标产生告警,发送信息提醒运维人员,保障业务可用性。
      CloudMNet 网络监控平台提供对网络设备的全方位监控和告警能力,覆盖所有网络设备性能监控,以及大屏展示功能。
      CloudMonitorAlarm(CMA)告警平台通过集中告警功能,帮助运维人员快速定位想要关注的告警,从而快速处理告警。

      2、站点容灾、服务高可用架构
      (1)Region级服务3AZ容灾架构,AZ多活,实现自动切换,客户无感知。
      (2)Global级服务region多活,可做到分钟级切换。
      支撑平台(GSLB、CloudDryRun):
      CloudGSLB(GSLB)全局负载均衡实现region级和AZ级的探活,以及自动切换恢复的功能。
      CloudDryRun 故障演练平台提供了丰富的故障场景实现,支持多维度的故障注入演练,助力系统整体的可靠性提升。

      3、WarRoom指挥机制
      WarRoom指为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。统一指挥P1/P2/重大P3的处理过程,及时有效协调资源分配,实现事故的快速响应、恢复和解决。
      机房高温故障发生后5分钟内机房启动WarRoom,会议快速组建完成,统一指挥,分工明确,协调作战,直至机房故障和业务恢复。

      4、确定性恢复预案
      (1)提前储备干冰:1小时内启动干冰决策,2小时首批干冰到场。
      (2)机房温升决策路径:消防逃生、业务逃生、冷量减载、单点重保、减损停服。
      (3)快速上下电工具和预案:温度持续升高,决策对管理面AZ2和未售卖租户机器下电,减少热量产生。
      (4)完整的监控指标:实时监测机房温度看板和业务运行情况。

业务提升.PNG

      1、 提高维护效率:故障管理体系的建设,使各种故障场景有完备的规范的处理流程,提高故障恢复效率,极大缩短故障恢复时间。
      2、 及时识别风险,保障现网稳定:故障演练平台的建设,使各种隐患浮出水面,及时消减,不断促进现网稳定和健壮。
      3、 便于管理:对于故障事件有统一归档的知识库,便于回溯和整改,丰富知识库,避免类似故障的发生。

案例总结.PNG

      针对故障定位困难,故障范围不可控,恢复时间过长等问题,建设高效稳定的监控告警系统,快速精准定位故障,实时监控看板,看护整个业务运行状况;建设标准规范的故障管理体系,加速故障定位和恢复,及时复盘归档,消除故障;建设故障演练平台,有计划的进行各种场景的故障演练,主动识别潜在风险,及时整改,消除风险,为业务稳定运行保驾护航。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。