综合可用性方案 保障机房重大风险时业务零中断
文章来源:《华为云确定性运维案例集(稳定可靠篇)》
随着企业业务量的快速增长、故障场景量级增多、故障影响面逐渐扩大,一旦出现重大故障,必然会对现网业务产生严重影响,保障业务稳定运行,对运维部门来说也是极大的挑战。因此,故障的快速恢复已经成为企业云上运维的关键因素。实现快速故障恢复,需要在标准化和自动化投入更多的思考:如何快速精准定位故障,提升运维团队的诊断能力和定位故障能力? 如何缩短恢复时间,减少故障对业务的影响?如何实现关键场景自愈能力?如何检验平台的应对故障的能力? 如何通过自动化工具来简化故障处理流程?如上这些关键要素在故障恢复的能力开发中,都需着重解决。
当前业务面临的主要挑战如下:
1、故障定位困难,故障范围不可控
当系统出现故障时,需要花费大量的时间和精力进行故障排查,事故恢复不可视不可控,资源成本较高,节假日业务峰值不可控,存在极大的风险。
2、恢复时间过长,故障无法及时发现与恢复
恢复预案不完备,恢复实施过程中无法监测,执行过程和结果全程人工判断不可信,导致MTTR时间长。
3、处理效率低下,缺乏完备的故障管理体系
无完整体系化的恢复预案,应急场景获取效率低,缺少全局决策逻辑,依赖集体决策,无法进行全局状态和影响性的最优评估。
4、缺乏自动化工具,故障不可控,无法提前预知隐患
缺乏通过程序化的方式定位故障、修改问题,无法实时监控系统的运行情况,无法提前识别出风险,消除隐患。
2023年某日,某机房空调制冷故障导致机房高温,业务面临重大风险,通过及时的干冰降温方案及业务应急预案的及时处置,最终业务0中断。
事件过程:
1、站点可视
(1)构建站点数字化平台,全面可视的监控告警体系,机房高温故障及时发现并启动预案。
(2)完整的监控指标,多维度展示能力,故障快速定位以及故障预警,第一时间检查机房供电和制冷设备运行情况。
支撑平台(CMC、Mnet、CMA):
CloudMonitorCenter(CMC),是一套能够对目标设备进行监控的系统。通过CloudMonitorCenter系统可以收集所监控设备的指标信息及运行状态信息。及时对超标指标产生告警,发送信息提醒运维人员,保障业务可用性。
CloudMNet 网络监控平台提供对网络设备的全方位监控和告警能力,覆盖所有网络设备性能监控,以及大屏展示功能。
CloudMonitorAlarm(CMA)告警平台通过集中告警功能,帮助运维人员快速定位想要关注的告警,从而快速处理告警。
2、站点容灾、服务高可用架构
(1)Region级服务3AZ容灾架构,AZ多活,实现自动切换,客户无感知。
(2)Global级服务region多活,可做到分钟级切换。
支撑平台(GSLB、CloudDryRun):
CloudGSLB(GSLB)全局负载均衡实现region级和AZ级的探活,以及自动切换恢复的功能。
CloudDryRun 故障演练平台提供了丰富的故障场景实现,支持多维度的故障注入演练,助力系统整体的可靠性提升。
3、WarRoom指挥机制
WarRoom指为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。统一指挥P1/P2/重大P3的处理过程,及时有效协调资源分配,实现事故的快速响应、恢复和解决。
机房高温故障发生后5分钟内机房启动WarRoom,会议快速组建完成,统一指挥,分工明确,协调作战,直至机房故障和业务恢复。
4、确定性恢复预案
(1)提前储备干冰:1小时内启动干冰决策,2小时首批干冰到场。
(2)机房温升决策路径:消防逃生、业务逃生、冷量减载、单点重保、减损停服。
(3)快速上下电工具和预案:温度持续升高,决策对管理面AZ2和未售卖租户机器下电,减少热量产生。
(4)完整的监控指标:实时监测机房温度看板和业务运行情况。
1、 提高维护效率:故障管理体系的建设,使各种故障场景有完备的规范的处理流程,提高故障恢复效率,极大缩短故障恢复时间。
2、 及时识别风险,保障现网稳定:故障演练平台的建设,使各种隐患浮出水面,及时消减,不断促进现网稳定和健壮。
3、 便于管理:对于故障事件有统一归档的知识库,便于回溯和整改,丰富知识库,避免类似故障的发生。
针对故障定位困难,故障范围不可控,恢复时间过长等问题,建设高效稳定的监控告警系统,快速精准定位故障,实时监控看板,看护整个业务运行状况;建设标准规范的故障管理体系,加速故障定位和恢复,及时复盘归档,消除故障;建设故障演练平台,有计划的进行各种场景的故障演练,主动识别潜在风险,及时整改,消除风险,为业务稳定运行保驾护航。
- 点赞
- 收藏
- 关注作者
评论(0)