提升故障管理能力,实现MTTR缩短60%
案例供稿:李要峰 谢志远
文章来源:《华为云确定性运维案例集(第2期)》
一、业务背景
随着5G技术和智能车载软件的广泛普及,智能网联车迎来爆炸式增长,面对持续增长的用户数量和业务体量,保障业务稳定高效运行就变得尤为重要,不仅要保障所用系统少出故障,还要做到出现故障后能够在极短的时间快速恢复,保障业务零中断,才能在激烈的全球汽车网联化趋势中实现业务超车。
二、业务现状
车联网企业当前在故障管理维度主要面临的挑战在以下四个方面:
1、故障恢复时长存在不确定性:故障发生后,缺乏确定的快速恢复预案,在排查根因和制定恢复方案的时间上就会耗费十几分钟甚至数个小时不等。
2、先于用户发现率低:多数应用侧问题通过用户报障获取,缺乏预警机制和有效监控,无法在故障发生前做到有效监测,无法做到先于用户发现问题。
3、缺乏复盘改进的机制:复盘后改进事项的落地实施不到位,现网时常发生共性和重犯问题。
4、极少开展故障演练活动:无法验证系统的可靠性和可用性,无法识别出系统的潜在风险。
三、方案实践
为解决车企故障管理面临的挑战和问题,我们通过对企业的故障管理模块进行系统的分析和评估,设计出提升自身故障管理能力和故障恢复能力的方案。
如图:故障管理体系建设方案
1、故障管理成熟度评估
基于企业故障管理各模块的能力,参照《故障管理成熟度评估表》对当前现状进行分析评估,如体系能力(组织、流程、工具)和技术能力(专家经验、故障发现、故障定位定界、故障恢复、故障复盘改进、可信验证),综合评估其目前所处运维阶段,结合各能力项,从故障模式库运作、重大故障恢复运作、事件复盘分析及改进运作、故障演练验证恢复可信等维度进行提升改进。
2、故障管理能力设计方案
1)重大故障恢复运作方案:通报线和恢复线两线并行运作。通报线协调资源和对内、对外无障碍沟通;恢复线明确RL角色,总体负责恢复方案,技术人员专心做技术攻关,其他人员高效配合实施。
2)预防机制和黑盒监控能力运作方案:
①事前构建预防机制,建立亚健康、失冗余、过载、安防预警机制,最大限度地保证系统的可用性和性能;
②从用户视角出发,基于业务功能设计黑盒监控,如端口状态监测、证书监测、探活、端到端的功能监测,提升业务故障及时发现率。
3)事件复盘分析及改进运作方案:建立故障复盘流程,充分吸取每一次现网故障经验,对于复盘报告中的监控改进、运维改进、产品改进、管理改进等要持续追踪并能落地实施,保障业务的持续稳定,避免问题重犯。
4)故障模式库运作方案:从业务容错视角(FMEA)出发,基于业界故障模式经验+专家经验形成标准的故障模式库,结合现网业务开展故障失效模式分析活动,形成场景化的故障模式库,包含故障模式、故障影响、故障补偿措施、建议补偿措施等。整理需求并评审,继而落实需求,如架构和产品、监控告警、恢复预案、测试用例等需求。通过构建容错视角故障模式库和形成的快速恢复预案来达到故障快速恢复的目标。
5)故障演练验证恢复可信:基于容错视角梳理故障场景,通过故障演练来验证故障恢复的可信,达到“练兵”的目的。确定攻击对象和攻击武器后,执行演练完成故障注入,感知到故障产生,根据恢复预案进行故障恢复,恢复验证后对演练环境清理与复原。演练结束后,需对整个演练过程进行复盘分析,并输出演练复盘分析报告,若演练结果未达到预期或发现有新的风险项,完成整改后,要继续组织演练,直至符合预期。
如图:故障演练运作图
四、业务提升
1、平均故障恢复时长MTTR下降60%:构建重大故障恢复运作流程来支撑运维、研发、运营等联合作战,极大提高故障恢复效率,平均故障恢复时长MTTR下降60%。
2、恢复预案命中率达到80%:建设系统的故障模式库和快速恢复预案,覆盖现网大部分故障场景,出现故障后能快速确定预案,执行恢复动作。
3、故障及时发现率提升50%:构建预防机制、加强黑盒监控,确保50%问题先于用户发现。
4、现网故障发生数减少50%:建设复盘改进机制,吸取现网故障恢复经验,运维、研发等相关改进项能有效落地到服务产品架构、工具平台能力、工程基线中,使得共性和重犯问题大大减少。
五、案例总结
本案例针对车企故障频发、故障恢复时间长的问题,从故障管理体系建设着手,以故障模式库为核心,量身设计出可落地、可实施的故障管理能力建设方案,有效提升故障管理和恢复能力,实现平均故障恢复时长MTTR下降60%,并逐步实现确定性恢复的目标,让企业放心,让用户满意。
- 点赞
- 收藏
- 关注作者
评论(0)