跨AZ容灾演练实践 让云业务处变不惊

举报
SRE确定性运维 发表于 2023/12/20 16:29:30 2023/12/20
【摘要】 本文针对当前云业务于各站点管理面容灾及逃生现状,以推进云服务、中间件及公共组件均具备容灾能力为前提,对整 AZ 注入断网、掉电、亚健康等场景制造故障,完成整 AZ 容灾逃生。此演练可识别各服务版本、架构、现网配置等诸多隐患, 校验整 AZ 容灾能力,助力云业务更加安全。

来源:华为云确定性运维专刊(第四期)

作者:卢三超、杨淼、刘晨皓

      背景

       容灾建设对于云业务无疑是保命手段。2021年之前,主力生产环境还未有一个Region整体完成容灾改造及演练,53%全局服务未完成容灾部署,70%未经过演练。结合历史事件,突发断网、断电等导致数以百计服务管理面业务长时间受损且难以恢复,导致最终客户不满的案例太过辛酸。相反,如果具备管理面容灾双活,历年管理面中断事件将大大缩短影响时长。因此必须构建各服务业务的容灾切换能力,基于现状设计可落地的跨AZ容灾方案,进而完成全局服务的跨AZ容灾演练,构建一个更稳定可靠的容灾能力体系迫在眉睫。

       业务现状

       当前业务面临的挑战主要体现在以下方面:
       » 数以千计云服务于各站点部署架构及访问方式不同,且容灾能力不均。为实现已有可用性能力在云内各子网按节奏落地,达成确定性运维目标,急需输出标准化容灾方案并适配落地。
       » 故障恢复时间长不可控。各服务间有着复杂的依赖关系,高阶服务依赖多个基础服务和周边服务,基础服务依赖公共服务和公共组件,依赖层次多链条长。当某个基础服务或组件出现故障时,经过几次的叠加和放大,很难直观地找到根源。从监测到故障到WarRoom定界定位再修复,恢复时间不可控,严重影响用户体验。容灾能力不足,导致快速恢复成为重大难题。
       » 现网环境中产品版本问题、部署架构问题、现网配置问题以及物理网络相关问题隐患在日常无状态情况下难以识别,应例行进行现网故障演练。在识别现网风险隐患同时,亦可校验监控系统能力的缺失,做针对性补齐。

       方案实践

       确认容灾方案
       容灾方案:同一类业务节点分两个集群,两个集群分别部署在不同AZ,单个集群内部节点异常时可以支持快速切流,应对的故障场景更为广泛。云服务、中间件及公共组件均完成相应改造及演练完成后,对整AZ注入断网、掉电、亚健康等场景制造故障,完成整AZ容灾演练。(单服务演练应覆盖基础设施故障场景和节点异常场景)

1.PNG

        整AZ容灾演练

        由演练组和SRE人员共同完成,演练组负责故障注入,SRE人员负责恢复,动作如下:提前准备应急预案→服务故障恢复→验证功能是否正常→输出演练结果(包括RTO和RPO)和问题记录等。

2.PNG

       图例为AZ断网演练方案:Shutdown AZ2新老管理区汇聚交换机上行接口,隔离AZ2管理区,使之成为孤岛。

       1. 单服务演练风险分析与准备度评估(含单服务改造变更和演练)

       结合AZ内服务部署现状,服务域评审决策并输出需改造及演练服务清单,结合服务当前风险打上高中低优先级标签,罗列出需完成具体变更项,并推动完成。

       2. 整AZ容灾演练关键风险识别

       整AZ演练前应识别核心服务关键风险点(重点为全局服务、中间件、基础服务),各服务结合自身服务属性及整AZ演练影响精准评估风险,并对极端场景(长时间中断)做出影响分析并输出对应风险分析报告,制定相应应急措施或逃生方式,针对性部署监控。推动落地规避或治理动作,跟进进展至风险闭环。

       3. 监控保障

       演练前对服务监控能力摸底,监控专项圈定重点服务需具备SLI指标监控能力且指标在演练region有数据呈现,同时参演服务需具备3分钟内拨测任务及时发现问题(各服务结合自身监控能力,需协调人力补缺工具缺失),涉及逻辑/物理多租的全局服务卷入监控侧专家资源分析监控能力消减监控风险。

       变更期间通过监控全景看板、告警流量大屏、Region级云服务SLO大屏、Region级物理看板等实时观测异常告警或流量变化。各服务结合前期评估风险,针对性部署监控,确认监控人力矩阵。演练方案同步监控组各领域接人,保证监控组所有成员熟悉故障注入动作及指令,同时演练过程中作为监控组指令交互,输出一版监控标准口径内部交互,以监控视觉保障整体演练运作顺畅。

       业务提升

       可检验云服务业务监控告警能力,针对性做优化改进,推动较多服务实现秒级探侦测能力。监控系统部署的完善对于提升现网变更可观测程度,及现网隐患识别发现均具有重要的积极作用,提升运维效率及安全性,为云业务稳定运行插上眼睛。推动云平台及云服务完成架构优化改造及单服务演练、跨AZ演练,提升其应急切换及逃生能力,缩短现网事件中断恢复时长,维护最终用户友好使用体验。演练可识别现网风险隐患,如服务产品架构类风险、双活网段使用风险、容灾1.x方案隐患风险、物理网络相关风险等较大风险隐患,可针对性成立专项组进行风险消减,对于现网安全稳定具有重要意义。完善演练能力建设,构建多项技术货架,基线化分钟级断端口故障注入方案,完善多维度的风险分析模型,新增重点服务SLO监控能力、租户视角服务RTO实时探测能力、新增物理网络链路拓扑监控大屏。

       总结

       华为云通过推动云平台、云服务、公共组件容灾改造及演练,最终完成整AZ演练,对于提升云业务架构稳定性、监控告警能力、现网隐患识别能力以及业务故障自愈能力均具有重要的积极作用。随着容灾建设方案的进一步优化与适配,面对日益猛增的业务流量也能处变不惊,保证云上客户业务稳定可靠。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。