上工治未病,华测的混沌工程实践

举报
SRE确定性运维 发表于 2023/10/08 15:53:34 2023/10/08
【摘要】 2023年9月20日,华为全联接大会2023确定性运维论坛在上海举办。上海华测导航技术股份有限公司软件运维负责人沈磊作为嘉宾,分享“华测的混沌工程实践”。

       2023年9月20日,华为全联接大会2023确定性运维论坛在上海举办。此次论坛以“破解云上质量成本效能的管理难题,确定性运维加速企业高质量增长”为主题,上海华测导航技术股份有限公司软件运维负责人沈磊作为嘉宾,分享了“华测的混沌工程实践”。

       华为云混沌工程解决方案服务内容包括混沌工程设计与验证、混沌工程演练两大服务,通过确定性运维实践,以混沌工程建设为出发点,帮助华测导航完成业务可用性验证与优化,提升业务可靠性,对其复杂业务稳定性方面进行创新探索实践。


1.jpg


华测导航技术股份有限公司软件运维负责人沈磊

       “华测一张网”介绍

       华测导航专注于高精度定位技术的研发、制造和产业化推广,是国内高精度导航定位产业的领先企业。公司的业务主要围绕以下方向开展:1个核心:高精度定位技术;2个平台:高精度定位算力技术平台,全球星地一体增强网络服务平台;3大应用方向:导航定位授时,空间地理信息,封闭与半封闭场景的自动驾驶。由华测导航研制的北斗高精度定位设备登上珠峰峰顶,彰显了可靠的技术实力。


2.jpg


华测针对不同行业场景提供高精度解决方案

       业务场景分析是混沌工程实践的重要前提。“华测一张网”系统作为华测导航公司的重点业务,整体架构为IaaS+中间件:DCS、DMS、RDS等。对“华测一张网”进行混沌演练,通过四个维度的分析:

       在业务需要上,华测导航的核心能力是高精度定位,属于根技术,对系统的可用性要求极高;

       在故障历史上,根据“华测一张网”在过去出现的故障进行分析总结;

       在风险识别上,“变被动为主动”,对生产环境的潜在故障进行主动识别,并制定应急预案;

       在能力提升上,通过演练实践,提高运维人员的应急响应能力。

       COC混沌演练平台介绍

       自动化演练平台是混沌工程演练提升效率的关键。混沌工程在华为云已形成成熟的内部产品和实践经验,演练平台每年支撑华为云内部演练2000+次,以内部成熟产品和实践经验为基础,进一步演化为对外可用的COC混沌演练平台,为用户提供一站式的自动化演练能力。

       全流程的动态风险治理,混沌工程完成“在线验收”。COC演练平台覆盖从风险识别、应急预案管理、故障注入到复盘改进端到端的演练流程;使能用户对云上应用进行主动地风险识别、风险管理和消减,提升云应用的韧性。


3.png


全流程的风险管理故障演练能力

       华测导航的演练实践

       华为云提供COC混沌演练平台,对“华测一张网”进行全流程的混沌演练,结合华为云的混沌演练专业服务,在单纯故障注入的基础上,增加风险识别和复盘改进能力,整合故障场景形成故障模式,解决故障场景数量“爆炸”的问题。

       混沌演练是一个系统工程,在华为云COC混沌演练平台的支持下,华测导航“华测一张网”的混沌演练按照以下5大步骤展开:


4.png


“华测一张网”混沌演练过程

       风险分析:结合部署架构和应用的业务情况,分析出风险点,形成故障模式;

       风险应对:针对故障模式,进行架构和部署整改,制定相应的应急预案;

       故障演练:针对故障模式和应急预案,制定演练方案,进行故障演练;

       复盘改进:演练完成后,对演练进行复盘总结,输出演练报告和改进事项;

       问题改进,持续演练:通过演练,持续发现系统问题,不断优化和提升。

       “华测一张网”混沌演练实践通过风险分析,使用华为FT-FMEA风险分析法,结合部署架构和功能依赖,形成故障模式。

5.png

故障模式工具界面

      风险分析完成之后,针对分析出的故障模式,从两方面做了风险应对:架构和部署优化,制定应急预案。

      针对梳理出的故障模式,为了验证架构优化的效果和应急预案的可行性,故障注入模拟真实故障场景。通过自动化的故障注入手段,故障注入后,部分节点出现异常。

6.png

故障注入工具界面

      在演练的过程中,监控系统监测到系统异常并发出告警,运维人员进行处理,下面是告警系统的告警信息。

7.png

监控告警工具界面

      演练完成后,对演练进行复盘总结,输出演练报告和改进事项。其中,演练验收通过的事项有5条:
      对于DCS-Redis的节点失效故障,DCS-Redis主备能够在3秒内自动倒换;
      Redis主备倒换后,客户端能够自动重连;
      Redis主备倒换后,集群数据能够自动同步;
      Redis主备倒换后,客户端能够自动刷新拓扑;
      对于DCS-Redis的节点失效故障,“华测一张网”SLO不受影响。
      本次演练实践不单单是进行故障注入,更是从架构和应用层面对DCS的依赖入手对“华测一张网”系统做了针对性的风险分析和可用性优化,将故障注入作为验收的手段
      “华测一张网”混沌演练,结合华为优秀实践,对系统进行风险识别,结合客户业务系统识别故障模式,针对演练场景风险点,制定应急预案,使用华为云COC工具进行演练,使混沌工程能够在可靠性建设中发挥重要作用,更智能化地帮助企业完成业务可用性验证与优化。

7.jpg


       文章来源:华为云头条号 https://www.toutiao.com/article/7287468705037173259/?log_from=bd326646e597e_1696749746528 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。