聚焦故障管理,华为云确定性运维坚守业务运行“生命线”

举报
华为云确定性运维 发表于 2024/08/29 17:10:33 2024/08/29
【摘要】 8月23日,“企业运维稳定治理研讨会”在南京成功举办,华为云确定性运维故障管理专家王宏基受邀出席发表“华为云确定性运维实践—故障管理”主题演讲,结合客户业务高速增长的智慧门店、业务出海等场景,分享华为云基于确定性运维实践助力提升故障管理能力的经验,助力企业实现全链路故障管控,构建故障快速恢复能力,提升系统运行的稳定性与可靠性。

      2024年8月23日,“企业运维稳定治理研讨会”在南京成功举办,华为云确定性运维故障管理专家王宏基受邀出席,面向各企业CTO、CIO、运维总监及业界大咖,发表“华为云确定性运维实践—故障管理”主题演讲,结合客户业务高速增长的智慧门店、业务出海等场景,分享华为云基于确定性运维实践助力提升故障管理能力的经验,助力企业实现全链路故障管控,构建故障快速恢复能力,提升系统运行的稳定性与可靠性。

1.jpg

华为云确定性运维故障管理专家王宏基

      随着数字化进程的深入,大量传统企业通过科技创新和智能化转型,IT运营/运维成为重要的新质生产力。故障管理无疑成为企业稳定发展的生命线,它如同数字世界的安全阀,精准调控着每一次技术波动,确保在关键时刻不掉链子,支撑业务持续稳定,提升客户信任度和市场竞争力。

      零售行业是数字化转型较早且深入的行业之一,从数字化战略到智能算法再到数据中台的应用,零售企业不仅提高了业务决策的精准性,还借助数字人和直播等新技术实现业务创新。然而,随着企业对IT系统的依赖日益加深,保证系统稳定可靠变得至关重要,门店直接与客户交易过程中,交易系统一旦故障中断,将对交易额和客户满意度造成直接影响。建立完善的故障管理体系,成为企业核心关注的运维要点。

      运用确定性运维成熟度评估模型,识别及梳理故障模式

       ● 华为云基于自身确定性运维实践经验,沉淀出确定性运维成熟度评估模型,快速诊断客户运维能力成熟度。将客户运维能力五级划分:基本运维、标准运维、SRE转型、初步确定性、高度确定性。

      若客户处在基本运维阶段,华为云通过三个阶段协助客户提升IT运维能力。第一阶段,解决系统问题重发和频发,缩减修复时长,规划故障管理和混沌工程,梳理系统故障模式,在线验证系统高可用架构,进行体系化规划;第二阶段,实现可观测和主动运维能力,如高可用架构、性能压测、监控设计;第三阶段,形成“初步确定性运维”,降低应用问题数量和修复时长,关注运维的组织、流程、工具重构。通过阶段化运维能力改造,逐步驱动企业运维模式标准化、数字化、智能化转型,实现确定性运维。

      保证业务连续性,建立可恢复的系统

      企业不仅需要关注技术和业务的创新,还必须重视IT系统的稳定性和可靠性,建立可恢复的系统。可观测性、高可用架构和决策机制,三者共同决定业务系统连续性。故障的可观测性和告警处理能力决定故障响应的时长;高可用架构则决定系统在面临故障时能否保持运行;决策机制则决定了故障恢复的速度。为实现构建“坚不可摧”的系统,企业需要对故障管理链条的各个环节进行深度重构。

      确定性运维故障管理实践方法论,驱动千行万业运维变革

      华为云确定性运维通过大量的实践,总结出完备的故障管理方法论,助力企业从“基本运维”快速进入到“高度确定性”运维阶段,企业能够更加精准敏捷地进行故障处理,更好地保障业务的稳定运行。

      ● 深入客户,充分调研,为潜在故障模式识别提供高价值输入。通过对客户访谈调研,深度理解客户业务架构、系统架构和主要业务流。并基于历史事件单、故障回溯报告,提炼客户系统TOP级痛点,洞察资源分布情况及系统隐性风险。

      ● 基于容错视角的故障场景分析法,分析系统潜在故障模式,建立故障模式库。对客户系统主要的故障模式进行全面梳理,输出客户业务系统故障模式库,验证历史故障事件。

      ● 选取典型故障模式,开发应急预案,针对预案进行多次混沌演练。在对客户不同业务故障场景下应急预案的设计过程中,对系统过载控制能力在线验证,应对流量高峰,保持系统的稳定性和响应速度,从而对系统架构和处理能力进行优化。

      构建确定性快恢能力,支撑客户业务稳定可靠高质量

      ● 故障发生之后,基于故障场景,从故障定界到故障恢复,提前预知故障修复的具体时间,做到确定性故障恢复。通过完备的监控告警系统及时发现并定位问题,做好故障可观测,并根据故障模式库中的应急预案迅速处理,隔离故障节点,保证业务整体不受影响。此外,需要组织和平台及时支撑,遇到故障快速响应,使得故障恢复时间高度可控。

      故障快恢整体流程需要系统化运营,保障恢复流程各环节拉通,达成确定性恢复。故障告警、故障模式、恢复预案三者互相关联,做到告警发生时即能锁定故障模式,快速执行预案,恢复系统。

      结合多项工具支撑,实现持续的动态风险治理

       ● 为提升故障管理能力,需结合多项运维工具开展协同。其中,故障模式库工具、韧性评估工具和混沌演练工具,都是构建这一能力的基础。这些工具不仅支撑知识的系统化沉淀,还实现专家经验的有效传承和利用,从而显著提高了落地效果,确保IT系统的稳定性和可靠性。

       故障模式库工具辅助积累整理故障处理的经验和知识,形成标准化故障模式库;韧性评估工具对系统进行量化分析,保障系统稳定运行;混沌演练工具为系统高可用做在线验证,识别系统中潜在的故障模式,与故障管理共同保证系统稳定性,推动系统风险闭环,保障业务风险消减,提升系统韧性。

      华为云通过确定性运维成熟度评估模型、高可用系统建设,故障管理及故障快速恢复实践,结合工具支撑,保障客户系统的稳定运行和高效的故障处理,增强客户体验和业务竞争力,不断向更高的系统可用性,达成确定性的运维结果。未来,华为云将继续探索和优化运维模式,以适应不断变化的业务需求和技术环境,与业界同行积极开展互动,吸取各家云上客户意见,助力千行万业运维变革。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。