构建数智运维保障体系,解锁业务增长新动力
一、背景介绍
2022年D项目业务转型升级,以云原生为基础技术底座进行架构重构,2023年新架构上线并逐渐承载新注册用户。D项目新架构部署在华为公有云上,集成了多种云服务组件,业务链路复杂以及碎片化的云上运维工具,给运维保障工作带来了极大的挑战。另外业务上线初期版本快速迭代,业务上线速度和现网稳定性之间存在冲突,迫切需要一套运维平台来完成数智化的转型,帮忙D项目提升运维效率和质量,提升系统的可靠性。
二、案例实践:基于AppStage的一站式智能运维中心管理
(一)AppStage一站式智能运维中心
AppStage运维中心基于云原生应用运维场景打造,从传统运维的以资源管理为核心升级为以应用管理为核心,沉淀华为内部运维经验,构建多个运维能力模块,形成强大运维生态系统。运维中心提供了一站式智能化运维平台,可将已创建的资源纳管至运维中心进行统一管理,支持纳管VPC、主机、数据库、容器集群。
资源类型 | 相关操作 |
---|---|
终端节点 | 删除终端节点:在华为云控制台选择“网络 > VPC终端节点”,进入“终端节点”页面删除,具体操作请参见删除终端节点。 |
VPC | 取消纳管VPC:在弹性网络服务“网络规划 > VPC纳管”页面的VPC列表中,单击VPC所在行“操作”列的“取消纳管”。 |
OpsAgent | 1. 升级OpsAgent:在主机管理服务“云服务器管理 > 弹性云服务器”页面的主机列表中,勾选主机,单击列表上方的“升级OpsAgent”。 2. 卸载OpsAgent:在主机管理服务“云服务器管理 > 未纳管主机”页面的主机列表中,勾选主机,单击列表上方的“卸载OpsAgent”。 3. 卸载OpsAgent前需要先取消纳管主机。 |
主机 | 1. 管理主机:具体操作请参见管理主机安全。 2. 取消纳管主机:具体操作请参见取消弹性云服务器主机纳管。 |
数据库 | 1. 管理数据库:具体操作请参见在WiseDBA中管理数据库实例。 2. 取消纳管数据库:在数据库治理“实例管理 > 实例列表”页面的数据库实例列表,单击数据库实例所在行“操作”列的“更多 > 取消纳管”。 |
容器集群 | 1. 管理容器集群:具体操作请参见管理已纳管的容器集群。 2. 取消纳管容器集群:在弹性资源服务“集群列表”页面,单击集群所在行“操作”列的“更多 > 删除纳管”。 |
通过将D项目系统的资源接入AppStage运维中心统一管理,可在一个portal内完成所有运维工作,包括变更、监控、故障、演练、资源管理等,完成数智化转型。
(二)变更管理:高效可靠的自动化变革
D项目业务复杂且版本迭代频繁,月均变更数量高达100+,传统手工变更单个耗时超1小时,耗费大量人力且易出错。针对这一痛点,项目引入AppStage部署服务,采用IaC(基础设施即代码)方式实现无人值守变更及全流程自动化。
自动化评审环节,AppStage部署服务接收变更请求后,依据预设规则和策略,自动对变更内容进行风险评估与合规性审查,从源头降低风险、节省人工成本、减少人为失误。自动化执行方面,借助IaC技术将基础设施配置代码化,变更时按代码定义自动部署更新,采用灰度发布,逐步推送变更并实时监控,发现问题及时回滚,保障业务平稳变更。自动化验证则在变更完成后,利用自动化测试工具和监控系统全面评估服务状态,避免人工验证遗漏,提升效率。
自动化变更过程具备可观察性、灰度特性、影响可控性及可回退性,并融合正向检查与反向防护提升可靠性。正向检查提前识别变更风险,如版本发布前代码静态分析、单元测试,变更前目标环境健康检查等;反向保护则在变更中实时监测性能指标,异常时暂停变更并回滚,变更后持续监控确保系统正常。
(三)监控管理:端到端的全链路洞察
D项目集成超10个第三方组件,业务链路错综复杂,日均产生成TB级日志,问题定界定位困难。为此,项目运用AppStage的可观测服务,从产品视角打造端、管、云一体化的综合观测体系,将业务全链路组件纳入可观测范围,构建端到端监控,实现现网问题的快速响应、定界与恢复。
该服务的异常检测功能采用华为基于PB级日志数据调优的AI异常检测算法,能自动检测异常并告警。借助动态阈值告警能力,AI算法训练监控数据生成动态阈值,精准识别业务异常波动,自动触发告警,无需手动配置阈值,有效提升监控智能化水平和问题响应速度。
(四)稳定性管理:未雨绸缪的故障演练
D项目系统架构复杂,现网故障风险高,传统手动故障演练存在诸多弊端,如准备耗时、效率低下、人力投入大、场景覆盖不全,难以满足高频大规模系统故障演练需求。AppStage的混沌工程演练成为破局关键,提供超80种故障注入方法,覆盖IaaS-PaaS-SaaS全层,全方位模拟故障,演练过程自动化且可控制“爆炸半径”,实现无人值守故障演练。
项目团队依据业务特点、历史故障及组网特性梳理出标准故障集,对高概率、影响大的必选演练故障场景达成100%端到端自动化演练能力。借助一键式故障注入,10分钟内自动完成一次故障演练,每年演练超50次,全面演练可能发生的各类故障,充分验证业务可靠性,为系统稳定运行筑牢防线。
(五)资源管理:统一管控的资源优化
D项目系统各类资源繁杂,已全部接入AppStage实现统一管理,涵盖主机、容器、网络和数据库资源。主机管理上,实现权限管控、运维通道管控、运维过程审计及OS治理监测,保障主机安全可信;容器管理支持多云集群托管、资源智能调度、弹性伸缩与优化;网络管理方面,可管理DNS、云网关、VPC、ELB等资源,通过IaC定义业务访问规则,自动化部署网络隔离策略;数据库管理则具备实例管理、自动化SQL变更、数据合规查询及风险诊断等功能,形成云原生数据库管理全流程方案。
基于运维CMDB服务,围绕资源全生命周期,提供闭环资源配置管理能力,从规划、管理到治理及优化,实现资源的高效管控与利用,助力项目降本增效。
(六)运维安全:全方位的安全保障
D项目运维涉及大量现网操作,存在人员违规、技能不达标、方案错误、流程不完善等风险,威胁系统稳定。AppStage将安全可信要求深度融入运维流程与平台,确保合适人员在限定时间、以最小权限执行合规操作,且操作记录可追溯。
生产资源100%纳管,实现可视可控,包括主机和数据库特权账号密码纳管及定期修改、设置账号密码有效期、漏洞补丁管理等。作业过程100%可控可追溯,变更过程严格合规,生产环境操作需3X授权,人员权限自动化管理,操作日志安全存储查询并支持审计,数据查看提取合规管控。同时,可靠性部署下,证书、密钥、域名自动IT化管理,监控证书到期;版本发布软件仓合规管理,阻断不合规应用入网;安全堡垒机管理,满足可靠性可服务性规范及基线要求,全方位杜绝人为操作风险,保障运维安全。
(七)运维治理:数据驱动的持续改进
借助AppStage运维座舱服务,D项目将运维告警、事件、变更和资源等多维数据统一采集入湖,依托确定性运维经验确定关键指标,开发报表构建运维BI,持续度量运维效率与质量,实现量化治理。变更报表呈现变更数量、失败数、手工变更数、自动化率及平均耗时;事件报表涵盖事件数、及时响应率、平均恢复时长及根因分类;告警报表显示紧急告警数、无效告警数、有效率及及时恢复率;资源报表则反映主机数、资源利用率、OS合规率及补丁完成率等指标,为运维决策提供有力依据。
此外,基于可靠性/可运维能力基线,开展针对性治理,对服务可靠性、数据库、基础设施和运维安全进行持续自动化度量与优化,助力D项目业务可用性攀升至99.99%,以数字化治理推动运维效能不断提升。
通过以上各环节的紧密协同与深度整合,D项目成功构建起一套高效、智能、可靠的数智运维保障体系,在变革浪潮中稳步前行,为业务持续增长筑牢根基。
三、创新性经验
- 无人值守变更:基于智能运维AIOps,实现无人值守变更。通过Everything as a Code (XaC)声明,AppStage运维中心将变更的评审、执行和验证等步骤自动化,避免人因失误,减少变更过程中的步骤,变更操作时间从1小时缩短为10分钟以内,实现无人值守变更,支撑D项目月均100+的变更,极大提升了运维效率。
- 故障生命周期管理:通过端、管、边、云的联动监控,实现故障生命周期智能化管理。AppStage运维中心通过端、管、边、云的联动监控,让指标、日志、调用链全栈可观测,打通了数据孤岛。在入口APIG接口成功率告警后,通过AI异常检测算法及AI根因诊断等能力,实现1分钟发现、5分钟定位、10分钟恢复,大大降低了故障恢复时间,提升了业务质量。
- 无人值守的故障演练:通过混沌工程故障注入,充分验证应用可靠性。AppStage运维中心支持80多种故障注入方式,预定义了50多种故障演练场景,通过模拟各种故障、全自动化演练,主动给应用“打疫苗”,使业务对故障具备免疫能力,提升了业务的稳定性。
四、应用成效
通过接入AppStage一站式运维中心后,D项目在变更、监控、演练、安全和可靠性的成就如下:
- 变更管理:在版本频繁迭代、业务持续高峰的情况下,通过部署服务月均变更100+,变更全流程自动化,变更效率提升90%(1小时->10分钟),未发生变更导致的现网故障;
- 监控管理:通过将业务全链路关键组件接入可观测服务,构建全链路端到端监控,根据AIOPS异常检测实现异常及时感知,告警有效率超过90%,现网故障告警覆盖率100%;
- 稳定性管理:通过一键式单点故障注入能力,10分钟自动化完成一次故障演练,单次故障演练时间下降70%,演练场景100%覆盖历史发生概率高、影响大的故障;
- 运维安全:生产环境资源100%纳管,运维作业过程100%可控可追溯,资源自动化管理杜绝手工操作,未发生人因导致的现网故障;
- 可靠性/可运维治理:识别应用集群负载不均衡、双云配置不规范、ELB健康检查未配置、主机漏洞等多个风险项,通过运营报表持续推动改进。
五、总结与提升
在实践过程中,D项目积累了诸多宝贵的创新性经验,这些经验直接推动了项目的应用成效。例如,无人值守变更的实现,极大地提升了变更管理的效率和可靠性,而故障生命周期管理和无人值守的故障演练则显著增强了系统的稳定性和安全性。
然而,在取得显著成效的同时,也引发了一些反思。D项目存量用户割接过程中的请求量可能比平常高出5-10倍,每一次都相当于是对系统的全链路压测,经常会出现性能和容量瓶颈。这说明在资源规划方面还有提升空间,需要利用AppStage的AI能力和运维座舱服务,结合活跃用户数、请求量、基础资源使用率等多维度综合规划未来所需资源,避免频繁的扩容。
此外,虽然通过运维治理识别了系统可靠性/可运维的问题,并持续推动产品改进,但这并不能从根本上解决问题。为实现应用可用性的长治久安,需要将可靠性/可运维要求落入开发设计阶段,从源头上规避风险。结合开发阶段正向设计和运维阶段逆向治理,才能有效提升系统的可靠性和运维效率,为D项目的长期稳定发展提供有力保障。
- 点赞
- 收藏
- 关注作者
评论(0)