政务云SRE团队客户用云优化能力分享
来源:华为云确定性运维专刊(第四期)
作者:康镇 李国强 刘纯纯 殷阁朕
政务云SRE团队背景
2012年6月,华为云业务部的第一批同事奔赴新疆,启动华为在政务云领域的首个平台交付,踏下政务云的首个足迹。到如今已历经12个年头,当地政务云逐渐壮大,从最初的一朵政务云到现在的X+朵政务云,已成为当地信息化建设的重要支撑,为政府机构、事业单位、企业和民众带来众多便利和效益,脚踏实地的助力政 府地实现善政、惠民、兴业。
在12年的时间里,华为云陆续服务800+政务云项目,与150+城市共建“一城一云”,连续多年领跑中国政务市场。作为国内最早接触政务云的云服务提供商之一,华为自2011年成立了互联网云业务部,已经积累了12年的政务行业维护经验。多年来,华为云专属政务云维护团队——政务云SRE团队,服务于各级政府机构,包括部委、省、市、区、县的政务云项目,依托华为内部三十多年数字化转型与数据管理经验,以及华为云庞大的研发团队作为后盾,守护数字城市运行每时每刻。
政务云用云成熟度分析
政务云SRE团队构建了全栈维护能力的专家资源池,运维专家队伍实时在线保障,以强托管模式7*24小时对客户云平台看护,有效保障业务系统安全可靠,助力客户信息化水平提升。十余年来,政务云SRE积累大量政务行业属性的信息化经验,聚焦历史典型事件、变更和配置问题,构建政务客户用云成熟度分析模型,协助客户优化整体业务架构,从架构设计可靠性、可观测性、应急切换能力、安全性、容量健康度等方面进行综合分析,提出优化建议措施。最终与客户共同完成落地后,可以减少故障次数,缩短故障修复时长,帮助客户更好地维护业务系统,提升政务系统可靠性和业务稳定性。
可观测性优化
业务的可观测性优化,主要在SLO/SLI设计、监控告警优化、日志分析、操作审计、链路跟踪等角度进行全面梳理,本文以监控告警优化作为重点进行阐述。
对于传统的监控平台,无法监控云上资源,生产业务受损后才能感知,无法提前进行业务切换,没有把业务上云的优势发挥到最大化。同时对于一些应用调用关系复杂的业务,难以开展业务关联关系分析,每当故障发生后,问题定位耗时较长,相应导致业务中断时间变长。
政务云SRE通过高效的观测性建设体系来提供高质量监控优化服务,从底层资源到上层应用,到业务最终用户体验,全方位监控系统的运行状态,配合各类问题的快速响应机制,保障业务稳定性。
分析业务
业务场景分析,分析客户业务场景,列出政务业务关键的监控维度,如安全、网络质量、数据库负载、带宽、服务器负载等,梳理出业务场景敏感点,识别对应的监控指标。同时对于历史故障事件分析,探究出事件发生的根因,可逐步得出最直观的监控改进点。结合优化模型中“架构分析与优化”方法论,对重点业务模块分层分析,识别客户关键云服务及现网核心指标。
梳理监控现状
根据控制台确认客户已使用哪些云服务,在监控控制台查看“告警规则”,明确客户已配置了哪些监控指标及指标阈值,对比华为政务云监控配置最佳实践底线场景及客户已配置的监控项,识别未配
置项。若客户自建的监控系统,以同等方法论确认自建监控能力范围,不足之处可用华为云自主研发CES/AOM/TSC等工具进行补齐。
优化建议&风险整改
提供优化建议书,完成未配置的底线场景梳理,标记第一步识别的重点监控项,根据业务实际情况动态调整监控指标阈值。推进风险整合,协助客户配置监控缺失项,与维护、业务团队确认遗留风险,结合业务正常故障隐患,确认现有监控项是否可以覆盖潜在的故障风险场景。
安全性优化
近来年,随着网络安全对政务信息化业务的挑战不断增加,相应对网络安全防护的需求也越来越严苛。对于客户已部署了全面的安全的防护服务,但多数服务均为默认配置,还需进一步对配置项进行优化,识别更深层次的安全隐患进行防护。政务云SRE团队结合华为云构建纵深云安全服务体系,从业务接入层、应用层、数据存储层及安全管理4个维度,审视安全服务、安全配置等措施是否完备,并提出具体的优化建议,提升云上系统的安全防护能力。
信息收集
配合上文提到的云上业务系统信息(云上资源信息、业务架构),结合关键需求及安全问题表,完成当前安全现状调研。
安全检查
识别业务架构及云上资源部署的信息,并根据关键需求、问题表识别是否发生安全事件;根据云上业务架构,依托安全评估检查体系,与业务对齐安全配置是否完备。
安全评估
根据安全评估检查结果,整合四个维度的安全评估结果,对齐每层对应的安全服务与安全配置,构建全面的安全防护体系。
接入层:提供四到七层的DDos攻击防护,防范SYN Flood攻击、HTTP Flood、CC攻击、UDP Flood攻击、TCP攻击等。
应用层:防范容器镜像安全、容器安全策略、容器运行安全。对于网站类应用场景,启用防范SQL注入、跨站脚本攻击、网页木马上传、命令/代码注入、文本包含、敏感文件访问、第三方应用漏洞攻
击、CC攻击等防护手段。
数据层:启用数据库安全审计和数据库安全防护;数据泄密保护、数据库防火墙(数据库入侵防御、细粒度访问控制)、数据库审计等。
安全管理:完成IAM的标准配置规划,完成云堡垒机的标准接入模式。采集全网流量数据和安全防护设备日志信息,并利用大数据安全分析平台进行处理和分析,态势感知监测出威胁告警,同时将主机安全、web防火墙和DDos流量清洗、VSS等安全服务的告警进行汇合。
容量健康性优化
业务在一个不断发展、变化过程中,其业务种类和请求量也会不断地拓展和增大,从而系统在运行一段时间后,系统的最初配置,往往已不能适应现行的系统配置,致使系统的运行效率降低,
给业务造成影响,尤其遇到突发业务场景,往往会因为容量问题导致整个系统崩溃。因此在合适的时间、地点,以及适当的成本提供合适的资源,定义、跟踪、预测和管控IT容量,以确保服务负载能够在可控成本与协定的服务水平级别(SLA)上运行,并满足业务持续发展需求。
系统容量优化贯穿整个应用生命周期,从上云前规划、云上部署及应用下线,整个过程都需要针对系统进行容量调优,保障系统稳定运行,场景主要分为:上云前(新业务上云)、上云后(重大活动或新增业务)、上云后(业务平稳),并结合系统架构分析优化方法,以业务系统切入容量分析。
上云前(新业务上云)
新业务上云,确定上云场景,并根据业务架构进行初步的架构分析,规划整体业务搬迁或者上云迁移,进行POC压测进行容量设计。
上云后(重大活动或新增业务)
重大活动时突发高峰流量,提前做好容量规划业务保障,平稳度过业务量突发;新增业务改变整体业务系统容量负载,更新容量规划。
上云后(业务平稳)
业务平稳后从整体监控获取容量负载情况,进行成本优化和趋势增长导致的容量瓶颈优化。根据监控指标分析空闲、高负载、低负载实例,结合业务情况进行容量调优,周期性对业务进行容量优化,保
证业务稳定。
系统容量优化评估规划 — 压测
压测一般在上云前或新上云业务通过压测确定选型云服务规格和数量,考虑部署方式、平均业务流和峰值业务流规划各层服务所需的数量,并根据实际业务再次对整体进行验证调优。
压测分析
通过压测工具或者历史压测报告,根据业务不同阶段吞吐量,分析基础资源性能在不同阶段的负载情况,评估业务应用安全水位(如示例:确定当前系统性能的拐点),确认并记录云服务相关规格对应的业务性能指标。
容量计算
通过压测报告数值,业务指标相关数值,分层计算需要部署的云服务规格选型。
结果验证
对业务系统进行容量扩缩容后,各别节点或者云服务可能出现负载过低或者过高情况,再次对不合理实例实施容量微调。系统容量优化评估规划 — 监控分析通过监控进行系统容量优化的主要场景为已上云业务,上云后基于历史运行状况,通过系统架构的各层云服务的各项指标进行分析优化。完成趋势分析和服务分析后,开展容量调优阶段,对业务进行空资源优化分析和容量优化分析,输出容量优化建议书,同步业务风险,并进行优化改造。
趋势分析
监控指标一般以一周和一个季度为观察周期,一周为短周期,主要识别业务特点,是否有高峰期和低峰期;一个季度为长周期,主要识别业务增长趋势,预期业务瓶颈。结合业务特点及业务变化趋势,识别具体业务风险,及时对业务进行扩缩容。
服务分层
根据业务架构进行服务分析,分析每层涉及的服务及对应的重点监控指标,当架构中的某一层容量突增会导致关联业务或向下传递负载突增,因此在容量规划时应结合实际业务,全链路进行容量等比规划。
容量调优
按架构分层分析,每层进行容量调优都需遵循空资源优化、容量优化操作。空资源分析通过梳理和分析实例状态来优化成本,容量优化通过历史监控详情分析实例负载情况,进行合理的扩容,保证业务健壮性。(逐层分析应考虑部署的冗余系数)。
空资源优化:对客户云上容量进行初步优化分析,按照以下规则进行闲置资源统计。
容量优化:根据业务架构分析,按业务分层从上到下,逐个云服务,按照关键指标进行监控图表分析。
结果验证
根据优化分析,输出系统容量优化建议书。与业务确认优化结果,并评估优化方案对整体业务系统带来的风险,制定相应的变更计划,变更完后,根据监控验证优化后业务状况,发现问题,并持续优化。
结语
用云成熟度优化是一个需要多维度思考,并持续演进与观测的过程,本期本文介绍了对于政务维护体系中可观测性、安全性、容量健康性提升优化的方法论,下期会针对政务客户的架构设计可靠性与应急切换能力的优化方法,结合实践落地进行分享。
- 点赞
- 收藏
- 关注作者
评论(0)