上工治未病,华测的混沌工程实践
2023年9月20日,华为全联接大会2023确定性运维论坛在上海举办。此次论坛以“破解云上质量成本效能的管理难题,确定性运维加速企业高质量增长”为主题,上海华测导航技术股份有限公司软件运维负责人沈磊作为嘉宾,分享了“华测的混沌工程实践”。
华为云混沌工程解决方案服务内容包括混沌工程设计与验证、混沌工程演练两大服务,通过确定性运维实践,以混沌工程建设为出发点,帮助华测导航完成业务可用性验证与优化,提升业务可靠性,对其复杂业务稳定性方面进行创新探索实践。
华测导航技术股份有限公司软件运维负责人沈磊
“华测一张网”介绍
华测导航专注于高精度定位技术的研发、制造和产业化推广,是国内高精度导航定位产业的领先企业。公司的业务主要围绕以下方向开展:1个核心:高精度定位技术;2个平台:高精度定位算力技术平台,全球星地一体增强网络服务平台;3大应用方向:导航定位授时,空间地理信息,封闭与半封闭场景的自动驾驶。由华测导航研制的北斗高精度定位设备登上珠峰峰顶,彰显了可靠的技术实力。
华测针对不同行业场景提供高精度解决方案
业务场景分析是混沌工程实践的重要前提。“华测一张网”系统作为华测导航公司的重点业务,整体架构为IaaS+中间件:DCS、DMS、RDS等。对“华测一张网”进行混沌演练,通过四个维度的分析:
在业务需要上,华测导航的核心能力是高精度定位,属于根技术,对系统的可用性要求极高;
在故障历史上,根据“华测一张网”在过去出现的故障进行分析总结;
在风险识别上,“变被动为主动”,对生产环境的潜在故障进行主动识别,并制定应急预案;
在能力提升上,通过演练实践,提高运维人员的应急响应能力。
COC混沌演练平台介绍
自动化演练平台是混沌工程演练提升效率的关键。混沌工程在华为云已形成成熟的内部产品和实践经验,演练平台每年支撑华为云内部演练2000+次,以内部成熟产品和实践经验为基础,进一步演化为对外可用的COC混沌演练平台,为用户提供一站式的自动化演练能力。
全流程的动态风险治理,混沌工程完成“在线验收”。COC演练平台覆盖从风险识别、应急预案管理、故障注入到复盘改进端到端的演练流程;使能用户对云上应用进行主动地风险识别、风险管理和消减,提升云应用的韧性。
全流程的风险管理故障演练能力
华测导航的演练实践
华为云提供COC混沌演练平台,对“华测一张网”进行全流程的混沌演练,结合华为云的混沌演练专业服务,在单纯故障注入的基础上,增加风险识别和复盘改进能力,整合故障场景形成故障模式,解决故障场景数量“爆炸”的问题。
混沌演练是一个系统工程,在华为云COC混沌演练平台的支持下,华测导航“华测一张网”的混沌演练按照以下5大步骤展开:
“华测一张网”混沌演练过程
风险分析:结合部署架构和应用的业务情况,分析出风险点,形成故障模式;
风险应对:针对故障模式,进行架构和部署整改,制定相应的应急预案;
故障演练:针对故障模式和应急预案,制定演练方案,进行故障演练;
复盘改进:演练完成后,对演练进行复盘总结,输出演练报告和改进事项;
问题改进,持续演练:通过演练,持续发现系统问题,不断优化和提升。
“华测一张网”混沌演练实践通过风险分析,使用华为FT-FMEA风险分析法,结合部署架构和功能依赖,形成故障模式。
故障模式工具界面
风险分析完成之后,针对分析出的故障模式,从两方面做了风险应对:架构和部署优化,制定应急预案。
针对梳理出的故障模式,为了验证架构优化的效果和应急预案的可行性,故障注入模拟真实故障场景。通过自动化的故障注入手段,故障注入后,部分节点出现异常。
故障注入工具界面
在演练的过程中,监控系统监测到系统异常并发出告警,运维人员进行处理,下面是告警系统的告警信息。
监控告警工具界面
演练完成后,对演练进行复盘总结,输出演练报告和改进事项。其中,演练验收通过的事项有5条:
对于DCS-Redis的节点失效故障,DCS-Redis主备能够在3秒内自动倒换;
Redis主备倒换后,客户端能够自动重连;
Redis主备倒换后,集群数据能够自动同步;
Redis主备倒换后,客户端能够自动刷新拓扑;
对于DCS-Redis的节点失效故障,“华测一张网”SLO不受影响。
本次演练实践不单单是进行故障注入,更是从架构和应用层面对DCS的依赖入手对“华测一张网”系统做了针对性的风险分析和可用性优化,将故障注入作为验收的手段。
“华测一张网”混沌演练,结合华为优秀实践,对系统进行风险识别,结合客户业务系统识别故障模式,针对演练场景风险点,制定应急预案,使用华为云COC工具进行演练,使混沌工程能够在可靠性建设中发挥重要作用,更智能化地帮助企业完成业务可用性验证与优化。
文章来源:华为云头条号 https://www.toutiao.com/article/7287468705037173259/?log_from=bd326646e597e_1696749746528
- 点赞
- 收藏
- 关注作者
评论(0)