- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

终端云服务亿级用户业务稳定性保障体系

华为云确定性运维发表于 2023/03/28 11:41:13 2023/03/28

【摘要】本篇文章从端到端生命周期的自动化管理能力、服务部署能力以及业务连续性管理等方面分析，进行了终端云SRE业务稳定性保障体系介绍及实践经验分享。

来源：《华为云SRE确定性运维专刊》第三期

本文作者：宋春雷，谢建华

终端云业务SRE在保障业务质量可靠性和合规的前提下，一方面通过平台服务好业务，提升用户体验和运维效率；另一方面是利用平时的积累总结，将公共能力沉淀到平台，反馈到平台，服务于所有的业务。

1 流程规范行为，指导运维工作有序开展
1.1 ITR(Issue To Resolution)
基于ServiceInsight平台构建从故障感知、决策到故障执行的端到端生命周期自动化管理能力，并不断完善每个阶段，围绕大数据AIOps异常检测、UEF舆情监控、健康管家、业务拨测、业务黄金指标构建问题发现能力，基于业务分层分级可观测性、根因诊断(调用链)、专家诊断工具、运维知识图谱提升问题定界能力，并通过应急预案、ChatOps编排、服务熔断、智能调度、应急三板斧等应急操作降低业务故障恢复时间。

1.1.1 感知、决策、执行
SRE基于ServiceInsight构建问题发现、诊断和恢复能力，不断推动平台优化改进和成熟，并实现公共组件、平台及中间件告警监控开箱即用，告警监控配置及问题定界效率提升50%。

通过监控及时发现问题，并在AI智能决策下确认下一步恢复操作，已经固化的恢复场景，如磁盘不足、CPU负载、话单推送失败等通过预先定义的ChatOps编排进行自动化恢复；针对需要人工介入处理才能恢复的复杂场景，逐步完善到标准的SOP中形成流程和要求，避免因恢复动作不标准而引入其它故障。
1.1.2 重视案例的负向改进
可靠性做的好并不能保证问题不会发生，线上的每一次问题都是对业务可靠性的考验和提升，它反复打磨着每一个环节。SRE结合问题，不断识别出业务的可靠性风险并推动优化，识别共性问题的可靠性要求和标准，补充到云服务可运维基线，并纳入到健康管家中巡检，持续治理直到满足可运维基线的最低要求(P0、P1级)。

通过对问题的深入分析和归类，也是梳理下一阶段可靠性提升工作的重要途径之一。
1.2 SD(Service Deploy)
1.2.1 变更自动化
通过IaC(基础设施及代码)以及灵活的编排能力，实现变更过程可信、执行自动化、效率连续3年持续提升30%（变更时长降低30%），目前终端云现网版本部署100%自动化。
根据存量资源，导出laC3.0代码；
1）根据CMDB的服务实例存量数据创建环境信息；
2）调用各服务的存量纳管接口，根据环境获取相关实例数据，纳管到环境资源信息表中；
3）根据环境纳管的资源信息可以导出laC3.0代码

一份laC3.0代码，多站点部署
1）各个环境依赖的资源策略由站点管理员按视划录入租户管理服务；
2）部署服务部署时，根据当前部署的服务和环境信息从租户管理服务获取资源策略；
同时支持研发和生产环境部署
支持灰度过程及结果评估
1）提供蓝绿和金丝雀两种部署策略，其中蓝绿通过在升级过程中部署一套新版本，金丝雀部署通过滚动升级逐步切换；
2）通过laC3.0声明式集成SLB的灰度流量发放能力，支持SLB现有的基于地域，用户，URL等多种灰度流量分发策略；
3）集成对接Servicelnsight获取升级过程中的指标数据，通过指标度量升级健康状况，通过继续，未通过自动回滚；
1.2.2 变更管理
变更是导致现网问题的一个重要起因，加强对变更规范化要求(流程)、做好变更过程中监控(灰度监控)、以及异常时应急恢复(回滚)，将有利于降低变更引入问题和影响。
变更流程规范，针对不同的变更类型从变更时间规划、变更评审、变更执行、变更验证、变更结束(异常回滚/正常结束)、问题复盘(可选)等维度梳理各角色责任人以及对应的职责范围，避免变更过程中出现职责不清晰的情况。
灰度变更和监控，业界对云侧的变更主要的方案包括金丝雀、蓝绿以及A/B测试，综合成本考虑，分别构建端、云灰度变更灰度方案及灰度监控。端侧基于应用市场实现按照机型的逐步放量策略，服务端基于金丝雀改造的灰度方案，并结合当前IaC3.0实现变更的自动化执行及灰度评估。

回滚，现网的任何变更都需要进行变更评审、变更后验证以及具备异常后的回滚方案，在变更后现网指标出现异常或者涉及的功能特性受到影响时，在评估影响范围后应优先执行回滚操作，保障功能、指标恢复到变更前的状态，再进行问题分析定位。
1.3 BCM(Business Continuity Management)
基于混沌工程构建WiseChaos平台，设计了故障模式库、智能评估能力，致力于从注入到恢复后评估端到端无人干预演练模式，从“按剧本演练”演进到“随机注入故障演练”。保证现网从“端管边云”各环节可靠性SLA99.99%，包括我们的全球骨干环网也即将实现双环双活。业务维度也从集群负载、AZ多活、智能调度、业务流控降级等方式，构建多重容错能力。
在控制爆炸半径的前提下，基于平台注入生产环境故障，提前发现系统中潜在风险，并验证监控告警的有效性，提升业务韧性。
● 平台已经支持XX+故障原子能力，覆盖到基础设施、容器以及业务。
● 基于云原生技术架构下，持续优化端到端自动化演练，构建全链路压测、强弱依赖演练以及演练评估关键能力，开箱即用。

以终为始，通过在现网不断的可靠性演练，识别出现网可能存在的风险并跟踪闭环，使得SRE和业务对现网的可靠性更加有信心。2022年在例行演练的基础上，针对共性问题以及业务新特性进行专项演练，共计完成XXX次演练，覆盖XXX台主机，识别改进XXX个问题，问题闭环率100%。

华为音乐先后推动完成多家SP放通方案落地和演练，自2020年开始，第三方SP故障对用户无明显感知。梳理第三方SP接入规划，支撑业务快速引入新的SP，保障服务上线后的稳定和运营目标达成。

通过上述几个流程规范了SRE在故障生命周期管理、服务部署以及混沌工程演练上的标准和要求，降低现网问题的MTTR，提升了业务的部署效率和可靠性能力。同时，SRE还需要通过平台以及运维数据治理推动重点工作的开展，如业务降成本、容量评估、OnCall建设、全链路压测、重大活动保障等。
1.4 降成本
服务全面上云容器化，利用华为云上的优势，实现业务、中间件云化，选择合适的付费方式，合适的资源规格，通过弹性扩容、在线离线混部等云原生相关技术，配合成本分析与监控，提升资源利用率，达到降低基础设施计算资源降成本的目标。
1.5 运维数据运营
数据都是有价值的，SRE作为运维平台和工具的“产品经理”，通过对业务的不断挖掘和深入，一方面会促使我们优化数据源的质量，另外一方面会基于已有的数据，利用大数据的优势，分析数据带来的价值，比如数据的合理有效性（影响成本）、数据的作用(用于核心指标周期性监控逐步出现恶化的问题、牵引公共能力建设目标完成等)，通过对运维数据的治理促进数据质量、保障业务健康稳定运行。
2 展望
道阻且长，行则将至。质量、合规始终是SRE工作的底线，围绕着SRE工作方法论和职责，通过对业务理解的不断深入和治理，提升平台的能力，实现自动化运维、无人值守从L3往更高层级迈进，同时，依托华为云成熟的底座能力、运维平台以及SRE丰富的经验，提升产品体验和活跃，支撑业务产品运营目标完成。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

终端云服务亿级用户业务稳定性保障体系

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

终端云服务亿级用户业务稳定性保障体系

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品