政务云架构设计与应急切换能力优化 实现业务安全稳定高质量

举报
华为云确定性运维 发表于 2024/09/13 17:16:58 2024/09/13
【摘要】 本文主要介绍政务云SRE基于华为确定性运维能力体系,通过一系列系统高可用架构优化以及应急演练能力优化方案和用云优化实践,实现业务安全稳定高质量,助推政务客户实现数字化转型。

来源:华为云确定性运维专刊(第五期)

作者:康镇 李国强 刘纯纯 殷阁朕

      一、背景

      国家数据局会同有关部门对外发布《关于深化智慧城市发展 推进城市全域数字化转型的指导意见》明确了推进城市全域数字化转型的发展方向,同时对城市重点领域提出了要求,包括基础设施建设、数字经济培育、城市精准治理、城市环境优化与保障城市安全等方面。这意味着政务云在提升服务效能、创新治理模式的同时,更要兼顾云上业务的安全可靠、资源高效与业务敏捷。在《华为云确定性运维专刊第四期》中,政务云SRE团队分享了政务云维护体系中的可观测性、安全性、容量健康性提升优化方法,本期将继续结合政务云架构设计可靠性与应急切换能力的优化方法与优秀实践,与大家进行分享探讨。 

      二、政务云业务面临的挑战分析

      从早期的“政府信息化”阶段到“电子政务阶段”,再到以政务云作为底座的“数字政府”,随着政府运行、民生服务、社会治理和经济发展等各领域纷纷部署在政务云上,数据价值凸显,威胁攻击越来越多,尤其近年来,全球出现过多起如关键系统停机、云被黑导致数据丢失、云故障导致网站无法访问等质量事件,政务云业务连续性和安全挑战越来越严峻。具体到城市的政务云建设中,挑战主要来自以下几个方面:

      一是重建设轻运营:常规的政务云更注重于云上基础设施建设,缺乏针对政务云平台稳定可靠运维体系和安全合规管理能力;同时,人工智能等新兴技术与运维融合深度不足,在业务稳定性面临新场景下的“适数化”要求下,传统运维方式存在可用性管理薄弱、被动响应、运维流程冗杂、故障管理能力欠缺、运维工具和业务需求不匹配、运维效能低等一系列问题,都在制约着数字政府的深化发展。

      二是重发展轻韧性:随着全域数字化转型深入发展,政务云系统越来越复杂,数据孤岛增加,版本迭代经常导致回退。如何避免系统出现故障,故障出现后如何快速恢复业务,成为亟需提升的能力。

      面对以上挑战,政务云SRE基于华为确定性运维能力体系及解决方案,通过一系列政务云用云优化实践,实现系统高可用,适配架构改进,快速发现系统隐患,帮助政务客户完善运维体系,提升运维效能,助力政务客户实现数字化转型。

      1、架构设计可靠性优化

      我们通过调研业务架构、应用及技术架构,聚焦高可用架构能力建设,识别架构及业务系统部署的潜在风险,总结出针对不同业务场景的优化建议:

      ● 应用架构优化:针对各业务模块或者子系统性能及扩展性问题,提供动静分离、流量分发、隔离解耦、限流、降级等场景应用架构优化方案。

      ● 数据优化:为提高访问数据速度,结合业务访问量及数据流向,针对业务特性提供缓存及数据库优化等场景方案来优化数据。

      ● 高可用部署优化:为解决云资源单点、数据无备份等问题,同时为了最大化的提升业务稳定性和可用性,政务云SRE团队以最优的业务资源开销协助客户进行高可用部署改造来优化高可用部署架构。

      以某政务网站为例,从某网站架构的接入层、应用层、数据存储层进行全链路分析,展示各优化场景及其价值。

1.PNG

      三、整体业务分析优化流程分为三大部分:

       ● 信息收集:云上信息是架构分析的重要输入,为架构优化提供重要的数据支撑。主要包括关键问题及需求,收集整理业务上云或云上阶段关键需求及问题,用于辅助识别业务架构风险。同时,收集相应的沟通矩阵,应用的事件定级标准、云上的资源及当前云上架构。

       ● 全链路分析:从业务访问链路出发,以关键问题为切入点,按照接入层、应用层、数据存储层分层,分析业务存在的风险。以信息收集为输入,模块化分析业务架构,明确业务模块功能、关键SLI指标、业务高峰时间、流量变化(是否突降突增)、强相关模块、事件定级等关键信息。

       架构优化:分析现网指标、关键SLI,识别架构存在故障域及风险,匹配优化场景,确认优化措施并落地,优化场景主要包括动静分离、流量分发、隔离、限流、降级、缓存、数据库优化、可用性等方面优化。

2.PNG

      2、应急演练能力优化

      政务云应急演练能力优化服务遵循混沌工程实验原理,并融合华为云内部SRE团队“朱日和”突击演练实践,聚焦多领域模拟真实环境,提供丰富的演练场景,以及关键场景应急预案,进而提升政务客户对云上业务系统稳定性的信心。

      应急演练-预期收益如下:

      1)发现运维人员协作沟通和运维技能方面存在的不足;

      2)发现应急预案中存在的问题,检验应急预案的可行性以及应急反应的准备情况;

      3)建立对系统抵御生产环境中失控条件的能力及信心;

      4)验证云上业务高可用方案的有效性(冗余保护、数据保护、容灾保护)。

      ● 整体演练方案

      ● 演练规划

      制定切换演练规划,收到客户切换演练需求后,由政务云SRE用云优化能力中心制定总体规划;组建应急演练团队,华为侧一线客户经理及运维工程师协同政务云SRE团队成员组成应急演练团队负责与客户沟通和方案讨论。

3.PNG

       ● 演练准备

      新上云时期或客户业务推广、版本更新、重大活动等业务场景,通过关键场景的切换演练,验证业务系统的稳定性,提前识别关键业务性能风险点,提供业务调优建议,最终提升业务系统抵御故障的能力。

      1)确定演练计划:华为政务云SRE团队与客户方演练团队讨论本次演练设计范围,确定演练涉及场景,并确定最终演练时间与演练日期。

      2)确定演练方案&应急预案:政务云SRE团队确定各场景演练目标,并由用云优化中心输出演练方案初稿、监控告警方案及应急预案,通过华为侧演练团队内部评审后,提交客户方审核,通过后作为本次切换演练的演练方案与应急预案。

    ● 演练实施

      1)演练动员,政务云SRE团队在演练开始前,确认本次演练相关人员已做好演练准备,确保演练顺利进行。

      2)演练实施,由客户方启动演练,SRE工程师配合按照演练方案实施演练步骤执行。

      3)观察记录,政务云SRE团队和客户记录每一演练步骤的时间与结论,并及时验证告警准确性。

      ● 演练评估和总结

      对于整体演练过程及结果,客户和政务云SRE演练团队根据观察记录确定演练是否达到预期目标,最后由客户对结果进行审核。

      SRE团队对演练过程和结果按照如下维度进行总结,输出演练总结报告:

      ●高可用方案/配置是否生效,若未生效是何原因,有何改进方案。

      ●RPO和RTO是否符合要求,若不符合,是何原因及如何改进方案。

      ●对于应急预案是否适配或有无其他优化方向。

总结

      数字化转型只有起点,没有终点;数字城市的安全和韧性,没有最强,只有更强。数字化时代序幕已拉开,政务云底座作为数字城市的核心支撑,其稳定可靠、安全高效,是城市行“稳”致远谋发展的必然选择。十年磨一剑,政务云SRE团队不断进行能力提升,通过一系列系统高可用架构优化以及应急演练能力优化方案和用云优化实践,实现业务安全稳定高质量,助推政务客户实现数字化转型。与此同时,政务云SRE团队还将800+政务云项目能力外溢,面向政务客户打造出咨询与规划、上云与实施、运维与管理、优化与提升——“规、上、维、优、培”全场景专业服务产品和解决方案,为韧性安全城市建设持续注入动能,守护数字城市每分每秒,助力数字政府变革每时每刻,共筑数字中国美好未来。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。