求稳识变求稳,用定制化检查夯实系统运维根基

举报
华为云确定性运维 发表于 2025/10/14 16:15:11 2025/10/14
【摘要】 本文基于SRECON25 EMEA主题演讲HyperRouter: Lessons Learnt from Building an L4 Load Balancing Service整理而成,在SRECon官网上可以找到演讲视频和材料。

image.png

一、背景

在数字化浪潮下,大数据、容器化等新兴技术正重塑游戏行业的竞争格局。某知名游戏公司,专注于手游业务,开发并运营多款爆款游戏,业务覆盖沙盒平台运营、IP文创、编程培训等多个领域,是国内头部游戏企业之一。为提升业务开发与运营效率、深度挖掘海量数据的增值价值、创新商业拓展模式,该公司对其云上核心业务进行了重大变革,涵盖大数据服务上云、容器化改造等关键内容。

二、业务现状

1. 业务快速变化,亚健康问题频发,风险实例众多

  • 新增节点挑战:以XX精英上海Region为例,新增CCE节点后,节点池配额不足,同时存在不可调度及工作负载实例为单POD等问题,影响业务高可用。
  • 配置修改问题:XX世界底层ECS实例更换后,出现实例反亲和风险,导致资源分配不合理,影响业务性能。
  • 数据安全隐患:IAM账号未开启操作保护,IMS服务存在私有镜像,AntiDDoS流量清洗告警配置缺项,威胁业务数据安全。
  • 资源容量能效低:官网接入层网络配置未优先采用弹性伸缩方案,导致资源浪费,无法灵活应对流量波动。

如图所示:全量资源实例风险系数高,容易引发业务中断、性能下降、用户体验降低等问题。

如图所示:关键核心资源累积风险高,风险项重点集中在ELB、DCS、RDS、DDS、ECS、容器和网络,数据和计算的高敏感区域存在失效隐患,价值数据及核心业务易损。

2. 架构革新,新架构未可视化

  • 现状:云上业务频繁变动,原有架构难以适应新需求。例如,业务引入大数据服务后,底层数据抓取、缓存及上层调用路径发生变化,系统业务交互及数据流向改变。
  • 挑战:容器化改造后,新增实例和业务关联关系在架构中无法体现,增量业务开发、高效方案沟通及重大问题快速溯源困难。
  • 需求:存量业务架构变动大,需要重新梳理,新增上云业务同已有业务端到端交互逻辑复杂,需对数据流转路径、上下层及同层调用关系等全量梳理;做到云上架构可视化(涵盖业务、应用、部署等层面),真正实现“一图知天下”。

3. 新服务上线,引入迁移MRR专项检查,识别云上非标配置检查盲点

  • 现状:新服务上云后,非标配置与业务强相关,无法单纯依赖工具和基线配置标准做检查。
  • 挑战:部分服务配置参数为非标配置,导致服务带病作业。例如:存在通用型规格资源争抢风险,影响数据库性能稳定;MCS类型的RDS实例存储空间类型为本地SSD盘,磁盘大小与规格不匹配,无法直接扩缩容,且sync_binlog参数设置为双非1,存在数据丢失风险。

4. 监控预警偏离实际业务需求

  • 现状:监控预警基线与业务实际需求存在偏差,监控缺失或预警错配,导致风险处置错过最佳时间窗。
  • 挑战:业务模块中,RDS for MySQL资源等待行锁指标达到规格上限时,其他资源指标(如CPU、内存)未达瓶颈,但会出现数据库连接超时、响应慢等问题。若未配置该指标,仅监控基础资源使用率,业务受损时无法及时发现并扩容;且配置指标过多导致无效告警频繁,无法有效反映业务真实情况。

三、方案实践

基于企业业务改造的“变”之特性,结合现有业务现状,推出“一变二查三稳”方案策略:

  1. 架构梳理:更新新旧架构,解决业务变动后的架构痛点;
  2. 健康检查:基于华为云可用性检查五大维度,从性能效率、可靠性、可服务性、容量优化、安全性综合识别云上风险及非标配置;
  3. 稳定性保障:通过上云迁移MRR、大数据利剑行动、深海巡航巡检,确保业务变动期间系统的稳定性。

1. “一变”—架构梳理服务,解决业务架构之“变”

企业架构可视化应涵盖云上系统级服务、组件关联关系及数据流转图,既能指导研发人员进行游戏内容扩展和关联业务变更设计,又能在云上业务出现问题时,通过业务关联和数据流向快速定位问题,实现快速决策与处理。

架构梳理聚焦存量业务更新和新增小游戏入口的架构变化,需要梳理游戏登录、充值等接口的交互关系、缓存数据与上层应用商城调用的逻辑关系,明确各模块关联和数据流转路径,为业务稳定运行及后续优化提供清晰蓝图。

2. “二查”—健康检查服务及监控优化,识别存量业务风险

1) 健康检查服务

根据业务系统现有架构,全面梳理计算、网络、存储、中间件、数据库、安全等云服务的运行参数和指标分析,并结合用云基线最佳实践,从可靠性、安全性、性能效率、可服务性、容量瓶颈等五大维度展开健康检查。

如图所示:安全维度检查涵盖企业敏感账户、安全配置组策略、WAF安全产品防护拦截模式等配置信息;性能维度包含各云服务规则配置、宽带、并发数、磁盘负载、CPU利用率等信息;可服务性以云服务配额、集群部署方式、节点池配额、消息中间件分区等为侧重点;可靠性偏重云上业务高可用部署方式、是否为敏感业务单节点部署、核心数据备份策略等。

本次健康检查为提高检查效率,引入专家团队及运维基线分析工具,共识别业务风险项300+,涉及业务爆炸半径、恢复时长、问题引入概率及历史问题故障率等关键指标。

如图所示:针对风险项进行优先级分析,综合考虑整改是否对业务有损、有无业务面感知等因素,并输出整改建议。例如,在保障半径方面,从跨AZ、AZ内、集群内、单点等维度进行评估;在恢复时长方面,以无业务影响、1-3min、3-5min、5-10min 及10min以上等维度进行划分,综合评估整改优先项。

如图所示:整体评估整改风险情况,联合华为云后端专家,针对企业业务特性输出优化建议,包含风险处理操作方法、业务是否有损及感知说明等,便于针对现网业务风险进行处理。

资源名称 资源ID 健康检查结果 优化建议 整改业务感知
XXX-XX服务 d058e7bXXX 集群版本过低可能会存在安全漏洞、性能瓶颈或者兼容性问题,造成数据泄露、运行缓慢或崩溃等问题 CCE前端管理界面,点击左侧的集群升级,根据提示升级集群。 集群升级时,以下几点注意事项可能会对您的业务存在影响,请您关注:xxxxxxxx
XXX-XX服务 4bdc83XXX DDS集群、副本集实例的所有节点在同一个可用区,可能存在AZ级故障无法倒换恢复风险 DDS迁移可用区,操作指导: xxxxxx 可用区迁移所需时间和数据量大小有关,并且会伴随60秒以内的闪断,请在业务低峰期执行迁移可用区操作

2) 监控优化提升服务

监控告警优化服务主要针对云服务的告警、资源负载和资源健康情况进行检查。从业务架构、业务场景、历史故障进行分析,结合华为云监控配置成熟度经验,提供监控告警优化建议。

本次监控告警优化,从企业历史用云数据,业务端到端各项指标流量顶峰、低峰、流量波动等多维度展开分析。

如图所示:本次监控优化提升方案从高向下,进行端到端梳理企业监控需求,包含游戏流量入口网络监控、负载均衡指标监控、各项业务应用承接的计算和读写指标监控及基础云服务核心业务指标监控,真正做到云上业务运行态可观测,预警可检测,风险可监控。

3. “三稳”—为增量业务保驾护航

1) 深海巡航服务—现网业务定时定期深度巡检,稳现网业务稳定

作为华为云运维服务重要一环,由华为云支持服务开展的一项巡检服务,主要包括对现网事件单每日分析、重点问题跟踪、关键问题清零等,在本次服务中华为云支持服务主要保障企业大数据上云及容器化改造过程的业务稳定性。

2) 上云迁移MRR服务—高阶服务迁移端到端守护,稳迁移过程可靠

上云迁移MRR是健康检查服务针对上云迁移场景中,各项高阶服务进行全量健康度体检的能力补充。涵盖迁移整个过程、包括迁移前方案设计、转维前交付实施、转维后稳定运营等。

如图所示:上云迁移在整个迁移过程中,从业务实际出发,通过业务架构分析及需求,分别从增量业务的可靠性部署、安全要求、可服务性等维护展开分析、输出优化整改意见。

领域 云服务 风险分类 风险级别 优化建议 风险详解
大数据 MRS 可靠性 中风险 在console页面选择补丁管理,安装最新的补丁; 野补丁代码回溯难度大,容易出现不兼容问题导致业务受损
大数据 MRS 可靠性 中风险 集群创建时,请选择多AZ,将集群的节点分布在不同的AZ中。如果集群创建时没有做AZ可选,请联系华为侧技术支持人员 单AZ故障影响租户业务
大数据 MRS 可靠性 中风险 集群master/slave节点分在同一个虚拟机反亲和组,可在ECS的节点组中查看该集群的存储/计算节点是否在同一个节点组中。Worker节点至少有3个节点分在同一个虚拟机反亲和组。 单台物理机故障影响客户业务
大数据 MRS 可靠性 中风险 告警治理,MRS的告警处理指导如下:https://support.huaweicloud.com/usermanual-mrs/ALM-12001.html,进入告警页面后搜索告警ID即可 告警存在隐患,影响客户业务

3) 利剑行动服务—增量业务上云预期稳,稳云资源实例可服务性有保障

利剑行动聚焦高阶服务风险识别和消减,事件清淤等,将现网业务中包含高阶大数据服务纳入行动专项名单,组织华为云专家针对企业重点事件进行分析,针对大数据服务运维需求进行方案设计以及现网风险巡检,提升企业新增业务稳定性。

四、全方位提升

通过本次定制化健康检查服务交付,完成XX世界上海、广州等多Region云服务资源深度健康检查,针对XX精英全量云资源实例部署及业务架构进行从0到1的全量梳理,使得企业用云风险消减300+,主要体现在以下方面:

  1. 可靠性提升:通过梳理企业多Region及跨AZ业务部署,输出7个云服务共25项架构可优化项,完成优化闭环,进一步提升架构的合理性与稳定性。
  2. 性能优化提升:结合业务历史数据和业务增长趋势、业务现状及预期峰值,进行容量及资源分配策略优化,识别出6项容量扩展风险,并完成整改闭环,确保资源合理利用与业务平稳发展。
  3. 监控告警提升:针对业务核心资源,全面梳理现有监控告警规则、识别冗余告警和误报问题、优化告警策略、降低监控噪音,完成3个重点资源(1个ELB后端异常主机梳理、2台ECS的CPU资源使用率频繁超阈值)告警的优化和降噪,监控有效性与精准性显著提升。
  4. 可服务性提升:结合历史业务问题进行问题根源分析、设计解决方案、闭环历史全量问题单。针对业务涉及DDS、ECS、ELB等云服务,识别N+业务问题,实现全量隐患消减。
  5. 安全提升:梳理云上白名单场景,完成虚拟网络服务3个、CSS服务1个、MRS服务1个、EVS服务1个、数据库服务6个、DCS服务1个、CCE服务1个,提升运维流程的安全性与高效性。

五、关键经验分享

  1. 通过最佳用云实践对存量业务进行风险分析,针对盲点风险补齐运营短板,真正做到早识别、早处置,防患于未然。
  2. 增量业务需提前分析业务运营痛点,尽早介入,识变求稳,可有力支撑新业务稳定运营,抢占市场先机。
  3. 架构决定基础,在业务优化过程中,架构的梳理尤为关键。只有梳理业务和部署架构后,才能更深层次地针对业务进行定制化检查,实现精准运维。

六、案例总结

在数字化、新业态的变革浪潮下,云上业务不断求变求进。对于运维人员而言,积极拥抱变化,并在变中求稳,是其核心目标。本文的案例实践表明,定制化的分析和检查是提升业务系统稳定性与资源健康度透明化的关键一步。通过实施定制化健康检查与架构梳理,企业能够有效应对业务变革带来的运维挑战,夯实系统运维根基,为业务的长远发展提供坚实保障。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。