双奖齐发!华为云获中国信通院典型案例两项荣誉

举报
华为云确定性运维 发表于 2025/06/09 16:17:15 2025/06/09
1.4k+ 0 0
【摘要】 近日,由中国信通院举办的云服务运行安全高质量发展交流会在杭州召开,在会议现场,华为云获得中国信通院颁发的两项案例荣誉。

      近日,由中国信通院举办的云服务运行安全高质量发展交流会在杭州召开,在会议现场,华为云获得中国信通院颁发的2024-2025全国信息通信领域云服务运行安全实践典型案例“卓越级”2024-2025全国信息通信领域云服务安全专项治理云服务运行安全创新成果“华为云现网安全生产系列演练”两项荣誉,为数字化转型中的企业开展稳定可靠、安全可信、可持续发展的云服务提供最佳实践参考。

2-2.JPG

 云服务运行安全实践典型案例“卓越级”

3.jpg

上图:华为云受邀现场领奖(左二)

1-2.JPG

图:云服务运行安全实践典型案例“华为云现网安全生产系列演练” 

4-1.jpg

上图:华为云受邀现场领奖(左四)     

      案例亮点一、面向站点可信的大型管理面容灾演练 

      为了增强应对机房高温和网络中断等极端故障的能力,华为云每年进行跨可用区(AZ)容灾演练,验证云服务的故障恢复能力。演练涵盖全局负载均衡、容灾管理中心和高可用数据库架构等关键组件。通过持续演练,华为云实现秒级故障注入、观测和回退,确保用户无感知。

      案例亮点二、基于SLO目标的服务韧性演练

      华为云SRE通过根服务韧性演练,持续识别现网关键质量要素,推动产品能力持续优化。实现故障自动切换与未知故障快速切换等核心能力的落地,达成华为云根服务在核心Region的高可用目标。

      案例亮点三、通过红蓝对抗随机突袭进行RL上岗认证演练

      华为云服务RL团队已成为现网快速恢复的第一责任人,所有成员需通过严格的认证方可上岗。该认证采用突袭演练形式,包括随机时间、故障及环境的选择,以此促进RL个人能力的持续提升。通过正向故障模式库和负向现网改进的设计,实现更精准的故障模拟和恢复策略,利用信息熵计算预期的平均修复时间(MTTR),并与实际恢复表现进行对比评估,以确保服务质量不断提升。

      案例亮点四、联合客户进行云上业务大型防灾演练

      华为云联合客户保障团队,深度融合真实业务与云服务、基础设施,开展从单一故障到多故障、再到极端故障的多维演练,全面检验云上业务的高可用能力。通过持续创新真实演练场景与完善应急预案,双方共同实现安全生产零重大事故,为业务连续性提供坚实保障。华为云通过持续创新与优化,全面提升演练能力,推动产品质量改进。重点优化云服务容灾切换的RTO时间,并确保根服务可用性SLO达标。华为云构建了现网端到端的自动化演练功能,在保障安全可靠的前提下,不断提升效率,主动识别现网风险与缺陷,实现现网高可用及长期可信的目标。

      确定性运维体系护航华为云业务高速增长

      华为云过去几年的高速发展,经历了上述“慢”向“快”的转变,逼迫着运维作出变革。华为云总结出了“确定性运维”能力体系,正是运维变革的一个样例。这个变革完成了运维团队从“消防员”向“建构师”的转型,通过“确定性”的各项能力,支撑业务团队既“快”又“稳”地发展业务,这是一个将运维团队从成本部门转化为生产力部门的实践,在不确定性的时代里,去增加我们的确定性,华为云SRE作为质量守护者,对云服务全生命周期进行质量把控,实现高可用性的可预期结果。

5.jpg

图:华为云确定性运维体系

      质量文化是基础。安全、稳定和高质量是华为云的生命线。华为云构建了质量模型体系,同时建立质量控制体系和组织,设立安全生产和质量管理委员会,华为云通过建立了层层的防线,包括业务部门的防线、质量管理团队的防线以及公司相关的审计团队防线,通过组织化和系统化的运作。将最高的质量作为SRE团队和华为云的目标,去实现达成。

      高可用架构是前提。华为云通过持续不断的混沌工程演练,每年演练次数超过数百次,确保在故障发生时已做好充分准备。整个高可用架构部署,最终需通过现网演练来实现能力的验证,并持续保障云和IT系统都能快速适应变化和迭代,从而提升系统的稳定性和容灾能力,为客户提供更可靠的服务保障。

      动态风险治理是保障。华为云通过作业可信特征(如可用、连续、Safety、隐私、透明、合规、Security、可靠、回溯),使能产业、客户和伙伴风险消减,助力业务价值实现,通过软件工程构建在作业环节的质量工程能力,消减人因作业风险,支持海量变更,把不可靠的因素和人因的风险降到最低,通过爆炸半径、发生概率和恢复能力三个方面的风控要素,提供了质量防护能力,帮助运维作业人员减少操作,端到端地提升运维人员质量工程能力,系统化地去提升作业可信的能力。

      智能运维是未来。在当今AI时代,企业正积极探索如何通过智能算法与自动化流程来增强其自动化运维能力,以减少人工干预,降低由人为错误引发的故障风险,并节省大量的人力和时间成本。利用智能化运维系统的预测及预警功能,可以提前识别潜在问题并迅速应对,从而显著缩短故障的影响时间。华为云提供了一系列专业服务,旨在助力客户在AI时代提升资源可用性与模型应用效率,进一步优化云端运维效能。

      数字化时代,IT运维迎来新变革,企业面临的挑战越来越多。华为云基于自身实践的经验,保障云上业务稳定可靠,以维享会和客户、业界伙伴一起联合共创,开展运维变革,加速千行百业数字化转型,提质增效,让运维真正成为业务发展加速器,共同构建确定性的运维世界。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。