智利全国大停电,一场电力危机背后的技术博弈

举报
华为云确定性运维 发表于 2025/03/29 10:37:44 2025/03/29
141 0 0
【摘要】 挑战1:断电极端环境下,华为云数据中心基础设施如何抗压华为云数据中心高可用的基础设施架构设计、中低压控制逻辑的场景验证、后备不间断电源(UPS)的性能监测、定期的系统测试和人员应急演练,是应对市电长时间中断故障的最可靠保障措施。高可用的基础设施架构设计:采用“市电+柴油发电机组系统+不间断电源系统(UPS)+智能控制系统”的电力高可用架构。双路市电断电后,系统根据设计,由不间断电源系统提供短...

文章来源:《确定性运维专刊第6期》

挑战1:断电极端环境下,华为云数据中心基础设施如何抗压


华为云数据中心高可用的基础设施架构设计、中低压控制逻辑的场景验证、后备不间断电源(UPS)的性能监测、定期的系统测试和人员应急演练,是应对市电长时间中断故障的最可靠保障措施。

高可用的基础设施架构设计:采用“市电+柴油发电机组系统+不间断电源系统(UPS)+智能控制系统”的电力高可用架构。双路市电断电后,系统根据设计,由不间断电源系统提供短时供电保障,自动启动发电机组提供长时间供电保障。

中低压控制逻辑的场景验证:模拟市电掉电的典型场景输出中低压控制逻辑测试清单,在验收阶段即完成控制逻辑的全面测试验证,为本次故障应对奠定坚实基础。

后备不间断电源(UPS)的性能监测:将UPS的关键运行参数和工作状态纳入基础设施监控平台,通过智能算法实时分析设备健康状态,及时更换落后部件。

定期的系统测试和人员应急演练:定期对柴油发电机组进行系统测试,保证系统的长期供电能力;针对各类市电中断场景制定应急预案,并进行模拟演练,保障断电事故中机房的长时间持续供电。


现场油罐储备运输


挑战2:黑暗中如何建立客户业务信心


在智利全国电力中断这一严峻的情境下,华为云SRE团队做到全链路可观测,秒级报警,迅速识别事故根因,快速应急响应,端到端进行业务巡查,全面保障客户业务万无一失。


快速拉起Warroom,跨国300人+联合作战。在智利突然断电的瞬间,华为云资源监控平台系统自动触发警报,SRE团队在1分钟内迅速集结应急指挥室Warroom,联合300多位跨国专家共同应对。


全链路可观测能力。机房管理系统平台监控基础设施健康水平;资源管理平台可审视备电切换后计算资源利用率等资源的分配与使用情况;租户面OA管理平台侧重于用户层面的异常监管。
全量业务端到端巡检,排查异常指标,做到紧急状况也能有条不紊。


7×24h关键业务重点保障。所有相关人员需7×24小时全天候在线,确保智利断电后紧急问题能够迅速得到解决。

现场巡检


挑战3:如何保障到最后一刻


最后一步是持续监控直至智利电力系统恢复运作,并确保市电供应稳定。在此基础上,还需保证业务从备用电源切换回市电时能够平稳运行。


持续监控及预警机制。若电力恢复,IoT设备会面临电源恢复后突发流量带来的性能冲击,需持续组织服务和业务巡检,对电力恢复后的OBS等业务浪涌准备应急预案,全面监测巡查指标稳定。

封闭式切换系统,保障业务无感知切换。在智利电力恢复后,华为云额外进行了6小时的重点保障工作,保障云平台、广域网、数据中心网络、安全设备均无告警且流量平稳,逐步无缝切换回市电。


经过为期27小时的重保,通过电力0中断切换柴发、1分钟Warroom响应、7×24h在线、持续监控和预警并完成业务端到端巡检,华为云在此次智利全国大停电事故中,确保了业务的连续运行,实现了零中断的保障,为客户提供了高质量的服务支持。

技术深度:确定性运维

从“高可用”到“业务永续”的跃迁

在此次事件中,华为云丰富的SRE经验保障了客户业务的持续运行,将数字化带来的“不确定性”通过运维变成“确定性”。这背后是华为云经过多年的沉淀总结出的确定性运维“1+N”体系,旨在构建可防、可控、可治的运维管理体系。


“1”指的是“管理体系”,涵盖组织、流程和工具三个方面。组织转型涉及企业内部人力资源的重新分配与布局,旨在提升效率、降低成本并增强企业的竞争力和可持续发展能力;流程体系贯穿产品的整个生命周期,覆盖从服务请求到修复、变更及可用性管理等多个方面的运维活动,促进不同职能团队在业务和技术层面的整合与发展,并通过持续迭代优化来提升整体运维水平;运维工具作为管理体系和组织效能的加速器,对于实现高效、稳定和安全的运维管理至关重要。


“N”指的是确定性运维构建的高可用、持续交付、运维能力可信、风险治理、资源治理、安全合规六大领域的主动运维能力,涵盖了从设计态、部署态到运行态的全生命周期的技术能力。通过专项能力的实践分享指导企业解决运维过程中的问题。


确定性运维“1+N”体系全景图

为了更好地支持客户的数字化转型,华为云将确定性运维1+N体系能力整合,提供OES(Operation Enabling Service)、IMS(Infrastructure Management Service)、AMS(Application Management Service) 三大解决方案,为客户业务稳定保驾护航。OES针对故障快恢、全链路可观测和混沌演练能力进行建设,IMS构建面向99.999%可用度的故障恢复能力,AMS强化基础设施即代码的支持,一站式运维托管,更好地支持客户的数字化转型。

黑暗中的“光”与未来


智利大停电如同一面棱镜,折射出云计算行业在极端场景下的技术韧性。确保业务无间断运行始终是华为云的核心价值所在。“我们无法阻止停电,但可以让黑暗中的数字世界继续发光。”华为云会持续帮助客户在质量、成本、效率中寻找最优方案,保障千行万业构建“确定性”的世界。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。