构建预测式运维能力,打造国内连锁便利店领导品牌
文章来源:《确定性运维专刊第6期》
1 美宜佳简介
美宜佳,创立于1997年,系东莞市糖酒集团旗下商业流通企业,也是在国内第一家连锁超市——美佳超市基础上发展起来的连锁便利店企业。二十多年来,美宜佳以好物产品研发为核心,目前已成为中国门店数量最多的便利店品牌。
2 业务高速增长和数字化转型的运维挑战分析
美宜佳当前已拥有3万8千多家门店,且门店数量还在持续增长,日均交易单和交易额也在快速增长。随着业务快速发展,业务场景和服务对象越来越复杂化,这给运维工作带来了巨大的挑战,具体挑战如下:
- 应用系统和运维对象越来越多,致使运维工作量成倍增加
- 业务上云后,架构日渐复杂,对运维人员能力要求高
- 业务需求变化快,版本迭代周期缩短,频繁的版本发布引发现网故障概率变高
- 故障恢复时间较长的情况下,用户体验不佳
为了应对这些挑战,美宜佳从多个维度开展数字化转型以提高企业竞争力。具体表现在:
- IT技术提升驱动已有应用系统云化改造,提高业务稳定性和用户体验。
- 基于云原生技术新增智慧门店、云销售、智慧物流供应链等系统,支撑业务转型。
3 确定性运维能力实践
在运维转型过程中,美宜佳与华为紧密合作,学习华为确定性运维实践经验。基于确定性运维成熟度评估模型,对运维现状评估和分析,识别当前存在的问题,制定改进计划。
3.1 运维成熟度评估
基于确定性运维成熟度模型和确定性运维“1+N”模型(如上图所示),对美宜佳运维管理体系和技术体系现状进行成熟度评估分析,当前处于标准化运维阶段。管理体系有待进一步夯实,技术体系的主动运维工作需要提升。
3.2 三阶段提升IT运维能力
美宜佳业务侧的核心诉求是减少故障发生,以及故障发生以后能够在最短时间内恢复。基于这两个业务诉求和运维成熟度评估分析结果,运维能力提升须向主动运维转型。首先,运维能力左移,建立上线管理机制,提前识别和整改质量风险。其次,构建故障快速恢复能力,发生故障后能够快速处置,降低故障影响。
因此,美宜佳制定了未来几年运维能力进阶的目标,分三个阶段演进。
第一阶段:以解决当前运维痛点为主的快赢策略,优先构建上线管理、故障快恢、混沌演练等专项能力。
第二阶段:从优化运维组织、流程和工具;构建业务可靠性指标体系与架构高可用设计能力,同时打造可观测能力提升故障的发现、定界及定位能力。
第三阶段:开展运维风险和资源治理,持续提升业务可用性。
3.3 上线管理推动能力左移,建立非功能性需求评审机制
运维能力左移,构建上线管理(生产准备度评审PRR:Production Readiness Review)能力,运维深度参与到系统非功能性需求的设计与评审过程中,提高业务系统质量,降低系统上线后故障发生概率,实现业务可用性的提升。
(1)基线制定
非功能性需求的评审需要一套评估标准,基于美宜佳高可用设计规范、运维管理规范、以及对历史重大故障分析讨论,参考华为生产准备度评审PRR能力,制定上线管理PRR评审基线。
(2)评审机制
在业务系统全生命周期中,执行非功能性需求的评审,识别业务系统潜在风险点并整改。
(3)上线管理PRP评审实践
运维负责组织PRR评审会议,邀请架构师、产品、研发、质量专员参与评审。以某应用为例,通过评审发现诸多如限流方案不明确、系统最大并发不满足设计需求、缓存技术应用不规范、监控覆盖不全等问题。针对评审发现的问题,限期整改。架构师提供解决方案和技术指导,研发负责产品问题闭环,运维负责监控覆盖等运维问题的闭环。
(4)持续推行
- 对于外采的业务系统,在立项阶段、概要设计阶段、上线阶段执行PRR评审。
- 对于自研业务系统,则在概要设计、上线阶段执行PRR评审。
- 对于核心业务系统,在业务系统上线后,定期开展PRR复盘。
(5)价值呈现:
- 完善上线管理,实现业务系统上线的标准化、规范化、流程化;
- 推动高可用技术规范实现标准化;
- 提前识别业务系统潜在风险、消减风险,提高业务系统质量,降低现网故障发生概率,提高业务可用性;
3.4 故障恢复时长缩短实践
故障快恢能力包含构建故障模式库、开发应急预案、以及通过演练进行可信验证,借助华为云COC工具完成故障快恢能力的落地,实现缩短恢复时长的目标。
1)构建故障模式库
基于业务容错视角的故障场景分析法( FT-FMEA ),对业务架构进行分层分析,从业务容错视角出发,通过正、逆向分析,建设包含冗余、容灾、过载、依赖、配置5个故障类型的容错视角的故障模式库。当前故障模式库已收录八十+故障场景。
2)开发应急预案
为实现已知故障场景快速恢复目标,针对每个故障场景建立对应的应急预案,并定期开展演练,以验证预案有效性。通过演练验证的预案,经过内部团队评审后归档,以支撑现网故障恢复,并对预案进行持续运营。
应急预案开发方法:
正向:基于FT-FMEA梳理出业务系统故障模式库,针对故障模式开发应急预案。
负向:通过现网事件补和故障恢复后复盘经验,对已有的应急预案进行补充。
应急预案持续运营
3)演练可信验证
基于故障模式进行演练规划和演练实施,不断验证应急预案的可信度,通过复盘识别故障模式和应急预案的不足,持续完善故障模式和应急预案并入库
故障快恢实践方案
故障模式库和应急预案库在COC工具中进行承载,将告警与预案的关联,通过演练验证故障恢复过程的可信度。要将演练验证作为运维工作的常态化,确保现网发生故障后可快速匹配预案。
价值呈现:
- 快恢能力的建设和实践推行,提升了运维效率,降低了MTTR。
- 专项人员能力培养
3.5 混沌演练提升系统可用性实践
基于业务故障场景,开展混沌演练,识别业务潜在风险和不足,锻炼团队应急处置能力。
- 故障转移演练
基于某应用集群进行演练,验证集群故障自动转移和备份恢复能力,同时培养人员熟悉标准化演练流程,明确规范化演练组织。
(1)演练方案
演练前分析应用的故障场景,评估故障影响面。按照故障恢复机制,对每个故障点建立对应的应急处置方案。
演练中,使用华为云COC工具进行故障注入,观察并按照应急处置方案进行恢复,演练过程全程记录。
演练后,组织演练复盘会议,全体参与演练人员,回顾整体演练过程,分析本次演练存在的问题,并专人跟踪问题改进闭环。
(2)演练过程及结论
演练过程:
演练呈现价值
集群为核心组件,若集群长时间中断,直接影响门店业务,可能会引发用户投诉。通过演练,识别集群故障转移配置问题及备份恢复策略问题。
- 混沌演练在门店系统切换的应用
门店经营相关平台和应用系统云化改造完成后,门店系统需批量切换到新系统运营。通过演练验证门店系统是否具备百店(批量)切换的能力。
(1)系统切换整体方案
确认将要切换门店信息,通过工具平台设置批量推送升级指令的定时任务。
升级步骤如下:
- 在指令正式推送任务执行前,先执行基础数据同步到新平台。
- 门店POS机版本升级。若POS机版本升级异常则自动回退到旧版本。
- 门店业务数据割接。
(2)割接工具演练验证方案
本次演练在UAT环境进行,将生产环境数据同步到UAT环境,模拟真实生产环境依次对20家店、50家店、100家店、400家店的数据同时割接。使用PerfTest测试工具调用xxxxx接口模拟前端POS升级,升级成功自动触发后台单据数据割接。
(3)演练过程及结论
演练过程:
结论:
- UAT环境资源规格下,工具已具备百店同切能力,满足预期要求。
(4)演练价值
- 百店同切能力验证通过。
- 割接工具业务功能验证通过。
- 架构师、研发、测试、运维等多个团队的混沌演练理论结合实践的能力验证通过。
3.6 金种子赋能,逐步完成能力承接
在主动运维能力构建初期,我们选定了金种子人员参与理论知识学习,在实际工作中进行应用和实践,进行经验沉淀。确定性运维可完全满足美宜佳的各项需求,我们决定将确定性运维在美宜佳进行全面推行,由金种子人员组织、全体IT人员参与进行培训赋能和实践,各业务团队承接主动运维能力。
4 确定性运维能力构建经验及价值总结
4.1 经验总结
本次确定性运维能力实践成果,得益于以下三方面的因素:
(1)清晰的运维转型目标:明确运维转型目标,向主动运维转型,构建上线管理、故障快恢、混沌演练三个专项能力,减少现网故障发生概率,降低故障恢复时长,保持现网稳定可靠;
(2)华为优秀实践经验传递:通过与华为紧密合作,学习华为SRE优秀实践经验,学习确定性运维方法论,与我们自身实际业务结合,沉淀为美宜佳特有的确定性运维能力。
(3)高效的团队协作:选定金种子人员,参与确定性运维能力建设方案设计,理论结合实际业务场景,多个团队共同协作,成功将确定性运维能力应用到实际业务中。
4.2 价值总结
(1)主动运维能力快速构建:快速落地故障快恢、混沌演练和上线管理等主动运维能力,完成系统化方案建设和金种子人员赋能,支撑美宜佳运维体系持续进阶。
(2)提升系统可用性和用户体验:通过金种子人员持续实践,将三项主动运维能力在新的业务系统逐步覆盖,现网故障发生率和故障恢复时长将逐步缩短,潜在故障被提前识别并修复,推动业务系统可用性和用户体验提升。
(3)加速数字化转型:通过运维转型,将更好支撑公司数字化转型过程,加快业务创新步伐,实现业务高速发展目标的达成。
未来我们将在数据 IT体系全面推广确定性运维能力实践,把目前已构建的专项能力推广至全公司,覆盖所有核心业务,同时持续推进运维组织变革,建立主动运维管理体系,开展更多主动运维工作,以运维驱动产品质量改进,提高整体运维水平,提升企业竞争力。
- 点赞
- 收藏
- 关注作者
评论(0)