华为云确定性运维,为政务云平台稳定可靠运行保驾护航
作者:林华鼎、康镇、徐殿军、殷阁朕
当人们要办护照,希望户政APP 是可用的;当人们要取公积金,希望网上行政大厅是可用的;当人们要扫场所码,希望健康码APP 是可用的……
近年来, 数字化经济下, 云上业务规模的快速增长与深入云化改造, 让系统的复杂度不断提升, 对云上的运维也提出了新的挑战。6 月23 日,国务院印发《国务院关于加强数字政府建设的指导意见》(下面简称《指导意见》),指出“持续优化利企便民数字化服务,提升公共服务能力。”电子政务已经与我们生活的方方面面紧密联系在了一起,持续稳定地提供服务是政务系统的目标,也是面临的挑战。各厂家的云平台早就引入了微服务、云原生技术,也早就用上了DevOps 开始模式,业务规模也在快速增长。
面对这些挑战,在“一切皆服务”的战略下,华为云基于积累的综合治理经验,提出并实践了“确定性运维”方案,继在公有云平台取得了很好的应用效果后,希望也能帮助政府用好云、管好云,增强政务云平台的稳定可靠性,满足政府对一站式服务和业务全流程贯通的需求。
什么是“确定性运维”
稳定可靠是平台的生产力与核心竞争力。华为云首先通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,在持续挑战零故障的同时,采用一定的技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,把云化带来的“不确定性”通过运维变成“确定性”。
基于开发团队与运维团队高度协同的合作模式,通过设计和落地高可用架构的产品来提升云平台的可靠性、可恢复性以及缩小故障影响范围,并采用动态清零的风控方法阻断风险。为给客户提供低成本、高质量、高效率的运维服务,华为云重点投入并开发了高度智能的运维服务平台。
其中,高可用架构目的是做到现网少出事(变更自动化、灰度发布、故障自愈、冗余设计、安全生产)、故障恢复快(容灾双活、过载流控、服务依赖管理、应急预案与演练,变更回退)、不出恶性事件(基于站点的架构、随机分片、区域隔离、可用区独立)。
动态清零风控是用AI 能力实现风险冒泡,并及时清除;持续提升监控、定界与快速恢复能力;构建混沌工程等主动运维能力;用数据智能支撑持续的自我改进。
高度智能的运维框架依托数据中台,结合先进的算法,实现智能告警、智能故障定界、自动恢复等。
“确定性运维”模式的应用
《指导意见》指出“到2025年,与政府治理能力现代化相适应的数字政府顶层设计更加完善、统筹协调机制更加健全”。“坚持整体协同。强化系统观念,加强系统集成,全面提升数字政府集约化建设水平,统筹推进技术融合、业务融合、数据融合……”。
政务云作为保障城市稳定运行的数字底座和基石,其承载的民生应用也越来越多,每个应用的架构稳定性能力、弹性能力、监控能力各不相同,如何加强一个“城市”的统筹能力,提升整体数字化、智能化水平?
华为云“确定性运维”实践中有一个“直营与加盟”的运作模式,目的是为了“一体化”管理云上200多个云服务应用,对运维流程、工具、人力进行治理,做到一套管理体系、一套技术标准、一个统一的平台,最终实现高质量的运维结果。其原则有四条:
1、运维指挥中心和产品技术能力中心解耦;
2、“直营店”:部分业务由运维中心直接管理和构建能力;
3、“加盟店”:部分业务由伙伴团队管理和构建能力,遵循运维中心“行管”;
4、“统一平台”:所有业务逐步纳管到统一运维平台上进行监控。
在管理政务云上大量应用的时候,可以参考以下方式:
1、组建运维中心,梳理分工,区分“直营”或“加盟”。针对负责关键应用技术运维的团队,完成对关键应用的“直营”。重点组建可用性技术团队统一构建关键能力和标准,组建运维管理团队对所有应用的稳定性、账号安全等进行管理;
2、梳理运维流程体系,梳理可用性架构标准和运维平台对接标准,全网统一推行;
3、构建统一的智能运维平台,逐步完成应用统一纳管、统一监控、统一大屏展示;
4、例行召集运维经理联席会,对“加盟”团队的运维质量和能力建设加强管理。
“确定性运维”成熟度模型的应用
为了帮助云上应用提升运维能力,“确定性运维”有一套成熟度模型帮助云上应用对自身能力进行评估,并拟定能力提升目标。比如“基本运维”能力向“标准化运维”进阶,然后再进一步向“SRE 转型”,进而再提升到“初步确定性”。运维能力提升不仅是运维团队的工作,还需要拉通产研等周边团队共同运作,是一个“一把手”工程。基于实践经验,第一级到第二级通常要三个月,第二级升级到第三级至少半年以上,第三级到第四级则需要一年以上,第四级到第五级则是更加复杂而细致的工作,需要一个长期的投入。
在应用向“确定性”进阶的过程中,可以先针对具体的能力项进行评估,灵活选择待优化的项目。基于实践经验,目前政务云处于应用大量上云的过程中,在第一阶段应优先完善“上线管理”,“监控设计”能力,并同步梳理“应急恢复能力”;此外,还需同步完善ITSM等运维工具,提升运维的标准化和效率。基于第一阶段,下一阶段可以逐步着手改善产品的可用性架构,同步构建“混沌工程”,如此可尽可能地提升效率。
云上运维在实践中能够发挥价值,背后也离不开工具、运作机制的支撑。随着政务应用上云,需要将一切风险因素考虑在内,华为云确定性运维解决方案基于在公有云平台的实战演练经验,构建了一套完整的面向政务云云上应用的一体化运维服务,以此来保障政务云云上应用的持续稳定可靠运行。
未来,华为云将持续关注政府侧的数字化应用需求,与行业伙伴共同探讨运维能力升级路径与方法,共同构建“确定性”的运维世界,以匠心打磨极致服务,努力解决政府在用云、管云中的“疑难杂症”,为政务云平台稳定可靠运行保驾护航。
- 点赞
- 收藏
- 关注作者
评论(0)