- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

综合可用性方案保障机房重大风险时业务零中断

华为云确定性运维发表于 2023/09/08 14:43:18 2023/09/08

【摘要】本案例介绍机房高温故障恢复实践案例，通过建设高效稳定的监控告警系统、标准规范的故障管理体系和故障演练平台，实现故障精准定位，快速恢复，保障机房出现重大风险时业务零中断。

文章来源：《华为云确定性运维案例集（稳定可靠篇）》

随着企业业务量的快速增长、故障场景量级增多、故障影响面逐渐扩大，一旦出现重大故障，必然会对现网业务产生严重影响，保障业务稳定运行，对运维部门来说也是极大的挑战。因此，故障的快速恢复已经成为企业云上运维的关键因素。实现快速故障恢复，需要在标准化和自动化投入更多的思考：如何快速精准定位故障，提升运维团队的诊断能力和定位故障能力？如何缩短恢复时间，减少故障对业务的影响？如何实现关键场景自愈能力？如何检验平台的应对故障的能力? 如何通过自动化工具来简化故障处理流程？如上这些关键要素在故障恢复的能力开发中，都需着重解决。

当前业务面临的主要挑战如下：
1、故障定位困难，故障范围不可控
当系统出现故障时，需要花费大量的时间和精力进行故障排查，事故恢复不可视不可控，资源成本较高，节假日业务峰值不可控，存在极大的风险。
2、恢复时间过长，故障无法及时发现与恢复
恢复预案不完备，恢复实施过程中无法监测，执行过程和结果全程人工判断不可信，导致MTTR时间长。
3、处理效率低下，缺乏完备的故障管理体系
无完整体系化的恢复预案，应急场景获取效率低，缺少全局决策逻辑，依赖集体决策，无法进行全局状态和影响性的最优评估。
4、缺乏自动化工具，故障不可控，无法提前预知隐患
缺乏通过程序化的方式定位故障、修改问题，无法实时监控系统的运行情况，无法提前识别出风险，消除隐患。

2023年某日，某机房空调制冷故障导致机房高温，业务面临重大风险，通过及时的干冰降温方案及业务应急预案的及时处置，最终业务0中断。
事件过程：

1、站点可视

（1）构建站点数字化平台，全面可视的监控告警体系，机房高温故障及时发现并启动预案。
（2）完整的监控指标，多维度展示能力，故障快速定位以及故障预警，第一时间检查机房供电和制冷设备运行情况。
支撑平台（CMC、Mnet、CMA）：
CloudMonitorCenter（CMC），是一套能够对目标设备进行监控的系统。通过CloudMonitorCenter系统可以收集所监控设备的指标信息及运行状态信息。及时对超标指标产生告警，发送信息提醒运维人员，保障业务可用性。
CloudMNet 网络监控平台提供对网络设备的全方位监控和告警能力，覆盖所有网络设备性能监控，以及大屏展示功能。
CloudMonitorAlarm（CMA）告警平台通过集中告警功能，帮助运维人员快速定位想要关注的告警，从而快速处理告警。

2、站点容灾、服务高可用架构
（1）Region级服务3AZ容灾架构，AZ多活，实现自动切换，客户无感知。
（2）Global级服务region多活，可做到分钟级切换。
支撑平台（GSLB、CloudDryRun）：
CloudGSLB（GSLB）全局负载均衡实现region级和AZ级的探活，以及自动切换恢复的功能。
CloudDryRun 故障演练平台提供了丰富的故障场景实现，支持多维度的故障注入演练，助力系统整体的可靠性提升。

3、WarRoom指挥机制
WarRoom指为快速恢复业务的运作机制，支撑运维、研发、运营联合作战，保障业务快速恢复而组建的会议。统一指挥P1/P2/重大P3的处理过程，及时有效协调资源分配，实现事故的快速响应、恢复和解决。
机房高温故障发生后5分钟内机房启动WarRoom，会议快速组建完成，统一指挥，分工明确，协调作战，直至机房故障和业务恢复。

4、确定性恢复预案
（1）提前储备干冰：1小时内启动干冰决策，2小时首批干冰到场。
（2）机房温升决策路径：消防逃生、业务逃生、冷量减载、单点重保、减损停服。
（3）快速上下电工具和预案：温度持续升高，决策对管理面AZ2和未售卖租户机器下电，减少热量产生。
（4）完整的监控指标：实时监测机房温度看板和业务运行情况。

1、提高维护效率：故障管理体系的建设，使各种故障场景有完备的规范的处理流程，提高故障恢复效率，极大缩短故障恢复时间。
2、及时识别风险，保障现网稳定：故障演练平台的建设，使各种隐患浮出水面，及时消减，不断促进现网稳定和健壮。
3、便于管理：对于故障事件有统一归档的知识库，便于回溯和整改，丰富知识库，避免类似故障的发生。

针对故障定位困难，故障范围不可控，恢复时间过长等问题，建设高效稳定的监控告警系统，快速精准定位故障，实时监控看板，看护整个业务运行状况；建设标准规范的故障管理体系，加速故障定位和恢复，及时复盘归档，消除故障；建设故障演练平台，有计划的进行各种场景的故障演练，主动识别潜在风险，及时整改，消除风险，为业务稳定运行保驾护航。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

综合可用性方案保障机房重大风险时业务零中断

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

综合可用性方案 保障机房重大风险时业务零中断

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

综合可用性方案保障机房重大风险时业务零中断