突袭丨一次云上生产环境的大考

举报
华为云确定性运维 发表于 2023/01/17 10:31:21 2023/01/17
【摘要】 春节回家看视频发红包,手机上看似轻轻一点的简单操作,背后少不了这群人的默默坚守;在不确定故障风险来袭时,他们是如何实现秒级告警和恢复,保障全球业务稳定可靠的?

突然提示的业务告警

却又在几分钟内自动恢复

数个运维工程师正加急排查

……

一次云上生产环境的突袭正在进行

      历时两周,华为终端云联合华为云开展了“突袭”演练,对生产环境近5000台云服务器进行软下线。此次演练,充分验证了华为终端云业务在站点级异常情况下的高度稳定可靠。每年,华为云在内部开展超过2000次混沌工程演练,并联合外部客户完成超过20次支付类、证券类、财经类等应用高可用演练。

图片


      华为云建立了全球运维团队,通过前端的高可用架构设计、动态风险治理体系以及智能运维工具,致力于让不确定性风险可防、可治、可控,保障了全球客户和超过370万开发者的海量业务稳定可靠。

图片

       专业可靠的运维能力,让客户笑言:“现在我们只要专注于业务运维,可以放心地把后背交给华为云。”

       现网稳定运行的背后,是一群默默守护的华为云SRE(Site Reliability Engineer,站点可用性工程师)……

       可靠组织文化

       保障业务稳定运行

       软件的故障、硬件的故障、机房的故障、甚至人的变更操作等故障存在,导致现网存在着大量的不确定性。

      让华为云稳定可靠是SRE团队的使命,他们是华为云的质量守护者,助力客户提升应用稳定性,通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果,华为云SRE让现网中的不确定性变成确定性。

图片

      确定性运维

      应对不确定故障

      随着数字化的深入,业务稳定是千行百业的共同挑战。

      当我们要出门,希望出行APP是可用的;当我们要预定餐厅,希望订餐APP是可用的;当我们在上班,希望生产工具是可用的……

      不论是数字应用的开发者、运营方,还是终端APP的使用者、消费者,所有人对于数字化系统和应用的确定性保障都十分关心,希望故障间隔、恢复时长和影响范围都是确定的。

      为此,华为云SRE提出了“确定性运维”基本理念,把云化带来的不确定性,通过运维变成确定性,不断夯实基础运维能力。

      确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围。

      确定性运维能力是高可用架构、动态风险治理体系、高度智能运维框架形成的一个有机结合体,覆盖了应用从产品设计、开发到部署上线,再到日常运行的生命周期全过程。

图片

      高可用架构

      确定性运维从架构上来看,包含确定性爆炸半径、确定性故障率确定性恢复时长。其中,最大的优势是确定性的恢复能力,现网的故障往往是非预期,而华为云通过架构设计,采用黑盒方式恢复各种未知故障,达到从前端阻止故障发生。


     动态风险治理体系

      将AI能力引入运维,以技术驱动实现风险提前冒泡,并及时主动清除;持续提升监控、定界与快速恢复能力,构建混沌工程等主动运维能力,通过现网不停地自动化注入各种故障,让现网的高可用的能力始终处于激活或者在验证的状态;用数据智能支撑运维工作的持续改进。


      高度智能运维框架

      依托数据中台,结合先进的算法,实现智能告警、智能故障定界、自动恢复等。华为云智能运维平台在AI加持下,让华为云SRE可以更高效地服务客户。

      共同构建安全稳定高可靠的确定性运维世界

      华为云通过业界独有的“确定性运维”能力体系成熟度模型,帮助业内同行基于运维模式,对组织、文化、体系、能力、工具进行评估,衡量确定性运维的成熟度,共同探讨优化策略,推进运维能力迈向新台阶。


图片

      华为云SRE针对具体运维可用性问题进行专项提升,推出《华为云SRE确定性运维专刊》,开创一个交流平台,通过方案优化、经验分享等方式,相互启发与碰撞,助力客户提升应用稳定性,构建安全稳定高可靠的“确定性”运维世界。

图片

      未来,华为云将继续践行“一切皆服务”

      实现确定性运维,让运维极简智能

      并和更多企业一起开展

      面向应用视角的稳定性提升工作

      帮助企业在质量、成本、效率中寻找最优方案

      构筑业界一流的软件质量

      让企业业务在华为云上创新更稳定可靠!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。