PRR实践确保业务上线质量与效能双提升

举报
华为云确定性运维 发表于 2023/09/08 14:26:13 2023/09/08
【摘要】 本案例引入PRR流程,通过构筑可用性、可运维性的前端能力,使服务及产品能够摘要 高质量快速上云,确保生产就绪,提升业务上线效率。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG

      互联网行业的企业承载业务数据量庞大,服务及产品检验流程复杂,需要对部署的系统、解决方案或产品进行检查,以确保其在生产环境中能够成功部署并正常运行,达到预期效果。为保证产品高质量快速上云,需要对每一个上云产品认真检测,包括服务及产品的可冗余、可容灾、可变更。同时需要服务开发团队完成提升运维能力的需求规划,以及服务设计和开发工作,并对生产环境进行检查、测试和调整,确保生产环境符合要求,使服务及产品能够高质量快速上云,确保生产就绪。

业务现状.PNG

      服务在设计和开发阶段往往只关注产品功能的设计,忽略了对系统的可用性能力与运维能力的构建,发布到现网后产品的可用性、可维护性较差。如不具备容灾、过载、周边冗余逃生、监控发现、快速恢复等能力,会导致服务质量差,SLI低于承诺的SLA,引起投诉。出现以上问题后再进行补救难度大,工作量是最初的几倍,甚至要进行架构调整,这将导致工作量巨大。常见的挑战有如下两个方面:
      (1)服务上线前无可用性、运维性的管理流程:缺少前端构筑能力,一般到最后上线时才关注运维能力与可用性能力,导致延期上线或带风险上线。
      (2)服务上线缺乏评审标准:该服务或产品上线前没有明确的检查规范来验收服务的运维能力与可用性能力,无法评估服务是否可以商用。

方案实践.PNG

      针对以上问题企业可引入PRR评审流程,制定云服务PRR(Production Readiness Review 生产就绪程度评审)基线。与服务开发团队共同完成提升运维能力的相关需求规划、服务设计和开发工作,提升公有云云服务的运维能力及服务可用性,并在服务产品开发前端构筑能力,使服务或产品能够高质量快速上云。
通过PRR评审对我们服务的可用性及运维能力进行构建,包括SLI/SLO、可冗余、可容灾、可过载控制、可故障管理等维度。

      1、PRR评审流程

      服务运维需深度参与到云服务持续开发与上市和运营的流程中。
      PRR成功评审后,按照标准流程正常上线发布,如PRR不满足评审要求,则需要进入技术整改环节,通过之后进行二次评审,达到标准后上线。

12.JPG

      2、PRR评审标准制定

      评审以发布的PRR基线进行评估,基线当从各大维度、各评估项对服务进行全面的审视。PRR基线由SRE团队按季度例行审视刷新。
      PRR评估项的影响程序分为A、B、C三类:
      A类:不满足检查项影响服务的SLO,检查项中在公有云服务已经广泛使用;
      B类:对服务提升SLO有帮助的能力,但检查项中在公有云服务未做全面推广,例如蓝绿灰度;
      C类:参考业界最新能力,作为技术牵引,当前不具备全面推广条件。
      必要性及应用:
      A类项不满足,代表服务不具备上云的基础运维条件,必须整改后才能上云;    
      B类项不满足,产品需要给出限定时间整改;
      C类牵引项,不做强制要求。

      3、服务PRR评审

      服务基于OCR、CBS、Campus go等云服务构成平台,支撑视频分析、证照识别、工单分析、语音识别、机器人对话能力,项目处于云服务设计阶段,需要进行生产准备度评审。

13.JPG

      根据服务业务形态及初步规划的架构图,对服务SLI/SLO,可冗余、可容灾、可过载控制、可故障管理等几项准备度进行评估,给出具体的高可用架构方案,并提出各项可用性及运维需求,产品把需求落到管道中并给出明确的时间。在方案的设计上,多租户技术架构可实现在多用户环境下共用系统或应用组件,通过管理可确保各用户间数据的隔离性。在租户A和租户B上通过管理面和数据面,业务平台统一的云公共管理模块,可进行多应用实例管理,解决业务资源管理问题。

14.JPG

      在服务韧性平台中,对服务架构方案进行正向的SLO计算,从设计上得到可度量的值。
      在引入PRR后,明确如下内容:
      • 清晰的可用性关键技术点:关键业务匹配业务部署架构、可用性、可靠性容灾关键技术点;
      • 完备的周边依赖可用性说明:周边依赖云服务,网络链路清晰明确,依赖云服务规格一目了然;
      • 可用性需求规划落地:针对可用性、可运维需求落地计划与商用计划基本匹配,统一进行需求管理。

15.JPG

业务提升.PNG

      » 识别潜在问题:评审中识别6个服务可用性、运维性问题,并提出改进项推动服务改进闭环,解决潜在的问题,避免对生产造成影响,确保生产环境符合预期。
      » 落地运维内容建设:立项阶段提出多服务的运维需求,落入产品需求管道,在开发阶段介入服务能力构筑,以确保云服务/产品的生产环境准备就绪,从而避免上线时不满足要求的局面。
      » 提高云服务设计质量:采用服务SLO韧性评估平台,对服务架构设计进行SLO评估,确定服务设计态的SLO,输出云服务设计方案,确定云服务对应的网络方案、工程方案、可用性方案等符合产品公测及商用。
      » 迭代刷新:通过现网事件和重大故障复盘,不断迭代刷新PRR规范,通过PRR流程不断提高产品质量,避免服务重复产生现网已发生的重大问题。
      » 建立全面的PRR能力:优化组织和流程规范,完善评估基线Checklist和在线评估工具。
      » 评估基线覆盖基础设施和应用系统:A类通过率100%,B类通过率80%。

案例总结.PNG

      为保证产品在面对海量数据时能够高质量快速上云,引入PRR流程,构筑可用性、可运维性的前端能力。在设计前期进行评审,提出运维需求规划,明确检查规范,验收服务的运维能力,评估服务是否商用,使运维和研发达成一致,减少后期上线验收中的返工,确保生产环境符合要求,使服务及产品能够高质量快速上云,确保生产就绪,提升上线效率及服务可用性。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。