华为终端云:繁大业务挑战下的运维平台生长及应用分享
随着华为终端业务的数字化变革加速,业务系统的安全性、稳定性及服务持续运行质量已成为华为终端云的关注焦点。2024年9月20日,华为全联接大会2024确定性运维论坛在上海举办,华为终端云SRE部部长李卫平围绕《繁大业务挑战下的运维平台生长及应用分享》发表主题演讲,分享华为终端复杂业务场景下,运维平台如何跟随业务全球化需求开展建设并保障运维效率和质量的落地实践。
图:华为终端云SRE部部长李卫平分享
平台自动化助力运维安全高效,迈入运维4.0智能化阶段
运维体系的发展离不开运维平台的支撑和推动,运维的发展史,也是运维平台生产力发展史,是人工运维到智能化运维的过程。华为终端云运维平台的发展历程概括为四个阶段;运维1.0阶段主要为人工运维阶段,依赖人力进行操作,如黑屏操作、命令行配置变更和现场操作等;运维2.0阶段,通过将操作命令封装为脚本,提供有限的自动化能力,远程化变更配置和处理现网问题,管理成本及维护成本较高。
图:华为终端云-运维平台发展历程
在当前的运维3.0阶段,华为终端云实现了平台自动化运维,通过运维平台进行端到端的自动化操作,促进运维可信作业、运维流程规范遵从,从而保障业务运行安全、稳定、高质量。在不久的将来会迈入运维4.0阶段,运维平台将具备智能化的特性与能力,通过AI自动决策与执行、故障自适应与自恢复,进一步提升运维效率和安全稳定,助力业务平稳发展。
以数据化、自动化,实现运维系统稳定高效
在华为终端云全球化业务发展过程中,团队主要面临业务数量激增、海量用户访问、变更频次数倍增加等运维挑战,团队积极探索并构建技术能力、实现了运维系统自动化、数据化和智能化的持续演进,全方位保障业务高速发展。
● 运维平台AppStage能力构建:打造全流程自动化部署能力,实现软件部署端到端自动化管理;建设故障生命周期自动化管理能力和故障自动演练能力,支持业务全球化部署,实现资源管理、运维数仓和运维安全统一化。
● SD( Service Delivery)流程自动化:通过IAC(基础设施即代码)落地实现软件、配置、资源、环境、组网信息的版本化、部署自动化,提升交付效率与质量,减少运维人工操作风险,高效优质保障终端云每年数十万次现网变更;打造变更评审、执行和验证自动化能力,分钟级完成服务全新部署;实现变更过程与结果可信,确保变更平滑、风险可控。
● ITR(Issue to Resolution)流程自动化:
围绕故障生命周期管理,构建一体化监控和故障自愈能力。通过端云一体化观测,达成典型故障场景分钟级感知;打造故障根因智能分析、故障自愈、告警自动修复等能力,提升故障处理效率,实现典型故障场景快速定界,现网运维事件平均恢复时长大幅降低。
ChatOps+EAP业务自动巡检。通过ChatOps+EAP实现手机执行运维巡检指令,一键式触发巡检,并将巡检结果自动输出并通知到指定人群,实现分钟级巡检。
全栈性能监控,端到端全链路追踪诊断。实现服务拓扑、服务轨迹、轨迹洞察三大特性,直观展示服务间关系与异常;建设端到端监控并管理服务的故障和性能,帮助业务快速故障定界,让业务运维简单高效。
● BCM混沌工程自动化演练:构建混沌工程端到端全流程自动化演练能力,降低实施门槛;打造演练结果智能分析评估能力,沉淀专家经验,提升演练效率和效果;建设服务强弱依赖演练能力,提升业务核心功能可靠可用性。
● 运维自动驾驶能力建设:借鉴车企自动驾驶能力思想,围绕故障快速恢复构建故障快速感知、智能诊断与自恢复能力;通过完善故障生命周期自动化能力,持续降低故障发现、定界、恢复时长。
图:AppStage一站式智能运维平台架构图
目前,AppStage一站式智能运维平台,围绕SD、ITR、BCM流程,构建自动化和智能化运维能力,支持应用在全球范围内高效、稳定地部署运行,助力企业构建确定的运维体系,提升运维效率,守住质量底线,为业务高速发展保驾护航。
- 点赞
- 收藏
- 关注作者
评论(0)