华为云首次解读高可用模型,以确定性运维保障云上稳定可靠

举报
SRE确定性运维 发表于 2023/04/13 14:29:18 2023/04/13
【摘要】 4月7-8日,GOPS全球运维大会在深圳正式召开。会上,华为云SRE首席架构师李浩发表主题演讲,深入分享确定性运维能力如何为行业业务构建稳定可靠的云底座。同期,华为云SRE还举办了“维享会”精英沙龙,共同针对数字化转型阶段的企业运维经验进行交流分享。

      4月7-8日,GOPS全球运维大会在深圳正式召开。GOPS 全球运维大会由高效运维社区(GreatOPS)、开放运维联盟(OOPSA)和 DevOps 时代社区联合主办,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。

      会上,华为云SRE首席架构师李浩发表题为“基于量化分析设计高可用架构,构建确定性运维能力”的主题演讲,深入分享确定性运维能力如何为行业业务构建稳定可靠的云底座。同期,华为云还举办了“维享会”精英沙龙,携手金蝶、即构科技、趣丸、丹姿、小鹅网络等企业的运维总监、技术负责人,共同针对不同行业、不同规模、不同数字化转型阶段的企业运维经验进行交流分享。

1.jpg

维享会·精英沙龙(GOPS专场)

      庞大、复杂、快速变化,成为系统运维的关键挑战
      在千行百业的数字化转型中,软硬件迭代加速,企业的业务系统越来越庞大、复杂且处于快速变化中,保障系统的稳定可靠,是企业业务最基本的“生命线”。

      为此,华为云SRE提出“确定性运维”能力体系,这是面向云时代的高效能、高质量的运维体系,也是融合“高可用架构”、“动态风险治理”、“高度智能运维框架”形成的有机结合体。通过“确定性运维”,华为云将业务高速发展带来的“不确定性”变成SLO的“确定性”。 其中,通过高可用设计消除风险因素,是达成确定性的前提。

2.png

华为云主张的确定性运维能力体系

      “运维也许被认为是默默干活的‘骆驼’,但是未来不能总是‘骆驼’,因此要正本清源,在前端架构上把交付产品设计好。一个高可用的架构才有现网好的质量结果,现网的高质量结果,不是仅靠简单运维出来的,而是前端设计和后端运维一起努力得到的效果。”李浩在演讲时表示。

      “用数学工具解决工程问题”,建立云系统和云应用的高可用模型
      设计确定性高可用架构,首先要解决的就是如何度量的问题。在架构设计中,华为云使用了系统可用度评估模型,该模型是由三个决定性因素构成:失效率,即中断次数;恢复时长,包括发现时间、定界时间、恢复时长;故障影响,即每次中断影响的租户数量。通过这三个因素,可计算出系统最终的可用度,基于这一评估模型,运维团队可更有针对性地进行高可用设计,追求系统整体可用度的最优。

3.jpg华为云SRE首席架构师李浩

      “SLO的优秀结果绝对不是靠运气实现,系统的可用性一定需要靠前端设计出来”。李浩表示,系统的可用度如何,并不是现网通过事件度量出来的,而是通过前端设计,在架构设计阶段就保障SLO是可信的。在这个过程中,还可能遇到各种挑战,如质量要素的非线性导致的结果不确定性、质量要素的数量爆炸、质量要素之间存在相关性等问题。

      为了解决这些问题,华为云以RBD(Reliability Block Diagram)模型和马尔科夫模型作为理论基础,对华为云现网长时间运转产生数据进行分析,围绕硬件故障、软件故障、变更问题、过载/安全这四大中断因素,将这些故障的中断次数、中断时长等数据作为模型的基础参数。基于这些方法,可进一步准确统计服务器的可用度,软件bug概率等,从而构建出华为云架构可用度评估模型和技术规范。

      华为云通过这样一套工程体系,建立每个云服务的SLO档案,并通过数据分析和量化计算的方式找到系统的短板,支撑高可用方案选型。据介绍,当前华为云已基于该模型解决了大量实际问题,包括集群节点数量设定、多组件复杂分布式系统的组件连接方式等。

      面向未来,量化分析模型完整系统还有很多路要走。李浩表示,华为云将持续创新,把各种子模型合并,实现更加完备的、更准确的计算系统可用度。

      一切皆服务,帮助企业构建确定性运维能力
      为了帮助更多企业构建稳定可靠的云上业务,华为云将自身确定性运维实践经验沉淀,以服务的形式提供给千行百业,让运维变革成为企业数字化转型的加速器。

      首先,华为云根据与众多企业交流经验梳理出“确定性运维能力成熟度模型”,支撑企业评估自身运维的成熟度并识别短板,从而制定符合其需求的运维变革目标和转型、进阶措施,加快提升企业整体运维能力。

4.png

确定性运维成熟度模型

      其次,华为云SRE提供了规划与设计服务,可协助企业应用开发及运维团队规划运维体系蓝图及演进路标,使得企业运维在能力上向确定性升级、在组织上向SRE模式转型、在流程上持续优化、在工具上加快智能化,从而持续优化SLO指标、人均维护基线、故障恢复时长,达到高度确定性结果。

     最后,华为云SRE还提供确定性运维专家培训课程,采用理论+案例实战的方式,为企业运维人员深度解读国内外SRE实践的发展方向,分享如何构建与提升软件及系统工程能力,从而帮助企业进行组织与团队能力建设。

      从2022年开始,华为云加快携手客户、业界伙伴共创确定性运维能力,在全国开展“维享会”(确定性运维经验交流分享会)活动。目前,维享会已经开展了30余期,覆盖不同的城市、行业、客户,打造了行业分享运维最佳实践和创新技术的优秀平台。

      高效一站式运维,支撑高可用架构量化分析及能力构建
      本次大会,华为云还首次对外展示了云运维中心(Cloud Operations Center)。作为一体化运维平台,该平台可助力企业用户更好实现确定性运维,打造高度集中化的运维和管控能力;同时,平台支持混合云及多云管理,并沉淀SRE最佳实践,实现场景智能化运维全局最优决策推荐等,实现“一站式”的操作能力。

5.png

站点健康监测大屏演示效果

      面对行业数字化转型和确定下运维需求,华为云云运维中心将主要助力企业构建6大运维能力:

      故障快速恢复:沉淀多年SRE故障领域知识库,实现故障恢复最优决策和自愈;
      变更风险管控:变更风险智能识别和拦截,确保变更过程安全可信;
      资源运维管理:高效的资源自动化运维,智能分批灰度,极大提升效率;
      韧性评估优化:应用高可用架构自动评估,及时发现问题驱动改进;
      全栈可观测性:应用资源全场景视角的数据层现,按需自定义看板;
      统一运维门户:运维风险、事件、任务等集中可视和操作,一站式完成处理;
      在产品架构设计上,华为云以集成促统一,以统一促简化,以数字化使能运维主动管理和优化改进,通过持续治理与敏捷并重,在安全合规的基础上不断提升效率,实现运维竞争力突破。

      面向数字化未来,企业的IT运维将迎来更多新变革和新挑战。华为云SRE基于自身数字化转型实践经验,携手客户、伙伴持续开展运维变革与创新,助力运维成为企业业务发展加速器,加速千行百业数字化转型,共同构建“确定”的数字世界。

      文章来源:华为云头条号  https://www.toutiao.com/article/7221352482956427788/?log_from=05738401e37b3_1681353749818 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200