首届《云系统稳定安全运行优秀案例》评比,华为云斩获多项荣誉
文章来源:华为云头条号
中国信通院于2022年11月启动“首届云系统稳定安全运行优秀案例征集”活动,以期激发云系统稳定性领域磅礴的创新力量,为数字化转型稳步推进奠定基础。近日,信通院首届“云系统稳定安全运行优秀案例”评选结果揭晓,华为云斩获多项案例荣誉,包括获得混沌工程实验室颁发的2022年度杰出贡献成员单位,华为云SRE确定性运维能力体系、华为云混沌工程提升云服务韧性实践、华为多活可用MAS解决方案荣获优秀实践案例,为数字化转型中的企业开展稳定可靠、安全可信、可持续发展的云服务提供最佳实践参考。
在业务量和云上客户业务类型飞速发展下,业务稳定性挑战越来越大。为了应对挑战,华为云SRE经过多年实践,总结出一套“确定性运维”体系,有效支撑了华为云业务快速增长。
确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围,华为云SRE作为华为云的质量守护者,通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果。
确定性运维的理念是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,通过技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,目标是要把数字化带来的“不确定性”通过运维变成“确定性”。
华为云SRE构建确定性运维能力,将“高可用架构”、“动态清零风控”、“高度智能运维框架”形成的一个有机结合体,覆盖从产品设计、开发到部署上线,再到日常运行的生命周期全过程,华为云智能运维平台在AI加持下,更高效地服务客户。
华为云SRE将“确定性运维”能力转化为云上业务运维的能力体系。华为云SRE持续开展确定性运维工作,重大事件逐年下降,确定性恢复时长持续优化,将“确定性运维”能力转化为云上业务运维的能力体系,梳理出如下适用于云上业务的“确定性运维”能力体系和成熟度模型,企业可对当前运维体系的现状进行成熟度评估,有针对性开展可用性提升工作。
亮点三:稳定可靠是华为云SRE生产力与核心竞争力
组织变革向SRE模式转型之后,关键的是构建确定性运维能力,华为云SRE确定性运维的核心理念是从正向设计的角度从系统架构层面思考如何不出问题、少出问题、出问题影响面小、快速恢复。
高可用架构的目标以及架构方案是提升可靠性,确定的失效率。提升可恢复性,确定的恢复时长,缩小故障影响范围,确定的影响范围。
确定性动态清零风控是用AI和专家能力实现风险冒泡,并及时清除。通过持续提升监控、定界与快速恢复能力达成确定性的恢复,构建PRR、ORR、混沌工程等主动运维能力;用数据智能支撑持续的自我改进。
确定性恢复能力是瞄准故障的,基于NRI进行故障模式分析,梳理出故障模式库,再针对每一个场景,参考MTTR公式分解出“发现时长”、“定界时长”和“恢复时长”,并逐项优化。
亮点四:《华为云SRE确定性运维专刊》支撑客户交流
华为云SRE针对具体运维可用性问题进行专项提升,推出《华为云SRE确定性运维专刊》,开创一个交流平台,通过方案优化、经验分享等方式,相互启发与碰撞,助力客户提升应用稳定性,构建安全稳定高可靠的“确定性”运维世界。
- 敏捷开发和DevOps的普及,软件系统的规模、复杂度和运维模式发生重大变化,业务快速上线和高可靠面临矛盾和挑战;
- 云服务作为分布式系统高并发、高敏感,企业迫切需要避免现网重大质量事故,单个AZ/Region无法满足高可靠诉求;
- 业务爆发式增长,外部输入千变万化以及容量冲击,不可避免对系统稳定性造成影响;
- 云厂商技术绑定,无法获得先进技术和价格优势。
华为云MAS多活高可用解决方案,是华为公司产品高质量、高可靠实践过程中经过多年锤炼和经验积累持续演进形成的组合解决方案,包括应用韧性混沌工程、CPTS全链路性能压测、MAS应用容灾多活、AOM/APM系统稳定性监控、可观测性大屏等能力,是围绕提高产品、服务和系统的韧性、可靠性数字免疫系统,保障企业上云建立信心,快速数字化转型,支撑服务稳定可靠、安全可信、可持续发展。
华为云MAS多活高可用解决方案,是华为公司产品追求高质量、高可靠过程中经过千锤百炼形成的最佳实践,包括应用韧性混沌工程、CPTS全链路性能压测、MAS应用容灾多活、AOM/APM系统稳定性监控、可观测性大屏等能力,其中多活容灾、混沌工程、全链路性能压测、拨测探活等能力已经广泛应用于华为云、终端云、流程IT云、车云等系统中,形成了端到端系统化的智力资产。
MAS多活容灾源自内部孵化以及10亿级云服务持续高可用成功经验,经过多年核心技术的沉淀逐步产品化,服务于能源、交通、直播、互联网、金融等十余个不同领域,具备业界Top成熟客户的落地实践经验和案例,关键技术领先于业界;
混沌工程是华为云服务、ICT等产品超过10年锤炼形成的包括故障演练流程和方法、可靠性评估标准以及故障模式库和武器库等核心资产,通过能力外溢对外形成产品化服务;
全链路性能压测服务CPTS经过数年积累形成了电商、一码通、秒杀、流媒体等场景模型以及8大性能压测模型,提供超过1000万规格超大并发能力,性能冲击能力领先业界;
华为云拨测探活服务通过提供核心接口分钟级监控和拨测探活一体化能力,已经成功保障华为公司200+产品和服务实现故障提前感知和告警。
华为云MAS多活高可用解决方案中的MAS应用容灾多活、应用韧性混沌工程和CPTS全链路性能压测三大核心能力2022年先后参加了中国信通院检验,分别获得了中国信通院先进级最高权威认证,说明MAS多活高可用解决方案行业内达到了领先标准。
亮点二:MAS多活高可用组合解决方案,构建完整韧性、可靠性数字免疫系统
MAS多活高可用组合解决方案聚焦应用多活提供一体化高可用解决方案:
- 通过混沌工程主动引入故障和常态化故障演练,实现练兵“千日”,用兵“一时”,形成“肌肉记忆”的法宝,驱动产品持续提升高可用防御和恢复能力;
- 全链路性能压测通过验证系统性能规格和过载能力评估,提前发现产品性能瓶颈,从而对系统进行扩容和过载保护;
- 接口拨测提供现网运行态监控和拨测探活,提前感知故障和快速告警;
- MAS多活容灾提供入口流量层、应用层、数据层的端到端的流量管理、故障切换、容灾演练等高可用能力,保障故障场景下的业务快速恢复;
- MAS可观测性提供多活容灾大屏、系统稳定性监控大屏以及故障演练大屏;
整个组合解决方案涵盖故障注入、流量压测、拨测探活、多活容灾和全场景可视化等能力,形成了完整的高可用攻防数字免疫系统,端到端系统性提升系统高可用能力。
针对产品不同的架构形态和多活容灾诉求,MAS多活高可用组合解决方案提供专业咨询服务和专家服务,涵盖多活容灾咨询、架构诊断、高可用架构设计规范、应用开发规范、实施方案、故障演练、性能压测、厂商搬迁等能力,支撑企业快速构建多活容灾高可用能力。
亮点三:多活容灾专注业务高可用,提供秒级的RPO与分钟级RTO
通过华为云多活高可用服务,企业可以轻松实现业务级高可用保障、E2E的多级联动高可用架构、秒级的RPO与分钟级RTO、低成本的容灾演练能力,MAS提供的核心能力和优势包括:
- 端到端(管理-流量-应用-数据仲裁)和多活容灾管控,以业务为中心,流量、业务、数据端到端高可用,配合高阶云服务和底层资源,分层管控实现业务级的高可用;
- 支持同城灾备、同城多活、两地三中心、异地多活单元化等平滑且可长期可演进性的高可用架构,支持各种阶段的业务,满足业务高可用架构长期的演进和发展;
- 可视化容灾多活编排调度基座,基于华为云八爪鱼(MAS-Octopus)分布式调度引擎,支持可编排容灾多活串并行业务流程和自动执行,丰富的容灾多活切换插件,业务的一键自动容灾或者多活切换,实现同城秒级RTO/RPO,异地分钟级RTO/RPO;
亮点四:混沌工程是提高分布式系统稳定性的最佳实践,通过常态化故障演练,练兵“千日”,用兵“一时”,形成肌肉记忆
华为云混沌工程已经广泛应用于华为云、终端云和流程IT云200+产品和服务,通过华为云和ICT等产品持续积累和锤炼,积累了丰富的流程和方法、可靠性量化评估标准以及故障模式库和武器库等核心资产,核心能力和优势包括:
- 业界领先的基于故障模式库的负向测试方法,提供了10大场景、200+全品类故障注入武器库,覆盖整个云基础设施和云应用场景;
- 混沌编排构建多样化真实场景,提供了随机时间、随机对象、随机故障注入的可控随机能力,实现低门槛、可编排构建Dev侧逼近现网真实场景的混沌工程能力;
- 可靠性量化评估模型和故障诊断,基于华为云防御、检测、响应和恢复可靠性能力模型,屏蔽不同业务稳态指标差异,抽象形成通用可靠性量化评估指标包括故障检测时长、业务中断时长、业务恢复时长以及业务恢复率等,自动量化评估系统可靠性能力,同时提供基于测试对象和故障模式的可靠性风险评估和诊断服务,自动发现系统可靠性风险和薄弱环节;
- 承载常态化故障演练和红蓝对抗流程和方法,提供了演练方案、演练计划、消息通知、演练实施、演练报告和复盘等完整的故障演练流程,用于满足产品在研发环境和生产环境例行演练、突击演练和红蓝对抗等混沌工程实践,通过实战检验产品可靠性能力,提高研发、SRE团队对现网可靠性问题的响应和恢复能力,是整个混沌工程不可获取的环节;
- 自动监控和全场景可视化,基于华为云稳态流量自动注入、拨测探活、资源监控、业务指标监控和调用链追踪实现混沌工程全场景监控,结合可视化大屏实现过程、状态、结果全流程可观测,辅助产品快速发现系统可靠性风险和高可用策略决策。
华为公司终端云、华为云、流程IT云以及ICT产品通过常态化故障演练,大幅提升产品可用性,混沌工程从Ops阶段前移至Dev阶段提前拦截系统韧性、可靠性90%以上的问题,通过月度、重大节日和突击演练支撑云服务产品现网可靠性问题连年下降,目前华为云混沌工程已经依托MAS解决方案产品化为华为云租户提供服务,提供覆盖从研发到运维全流程混沌工程能力,必将大幅持续提升云服务应用稳定性。
亮点五:开展全链路性能压测, 主动发现系统性能瓶颈
华为云CPTS服务提供低门槛、低成本的一站式云化性能测试能力,支持丰富的性能压测仿真协议、性能模型和场景模型,经过数年积累形成了电商、一码通、秒杀、流媒体等场景模型以及8大性能压测模型,提供超过1000万规格超大并发能力,性能冲击能力领先业界,核心能力和优势包括:
- 低成本超高并发,自主研发性能压测仿真内核,支持单机万级并发,集群超过1000万规格超大并发能力,模拟瞬间发起大量并发;
- 丰富的性能测试场景和模型,提供电商、一码通、秒杀、流媒体等场景压测模型自动生成、8大压测呼叫模型、低代码流程编排等满足千行百业性能压测和评估诉求;
- 性能瓶颈自动摸高和快速评估,智能摸高模型和算法快速验证系统性能规格和瓶颈,无缝对接应用性能管理(APM)、应用运维管理(AOM),提供事务并发、RPS、吞吐量、响应时延等多维度性能统计,专业性能测试报告和性能分析,快速发现系统性能瓶颈。
经过信通院的权威认证和持续探索业界最佳实践,华为云在云系统稳定性领域持续发力,为客户提供稳定可靠的运维体系和云系统稳定性保障工作。华为云SRE和更多企业一起开展面向应用视角的稳定性提升工作,帮助企业在质量、成本、效率中寻找最优方案。华为云MAS多活高可用解决方案通过提供业界完整多活高可用组合解决方案保障更多的云服务实现业务“零中断”、数据“零丢失”、故障快速恢复和自愈等高质量、高可用目标,支撑企业云上业务持续商业成功,共同构筑业界一流的软件质量,让企业业务在华为云上创新更稳定可靠!
原文链接:
- 点赞
- 收藏
- 关注作者
评论(0)