运维体系变革促进云端改革 企业数字化转型的加速器
文章来源:《华为云确定性运维案例集(稳定可靠篇)》
当前,各行各业的数字化转型以及云原生实践成为一种趋势,对于设计、研发、制造、销售和服务业的企业,随着业务高速增长,传统运维模式已无法满足云化业务的运维要求,为提升企业竞争力,守护业务可用性,运维转型迫在眉睫。转型从何下手?组织架构、运维流程、工具等哪方面需要改变?成为企业亟待研究和探索的问题。
通过业务现状调研诊断,当前运维业务主要面临以下挑战:
1、运维组织架构方面
» 组织架构不完整,缺少主动运维组织;
» 主动运维岗位缺失,人员不足,主动防范工作无法开展;
» 运维人员岗位职责和角色分工不清晰,每天忙于救火中,无法适应业务和技术发展趋势。
2、运维组织架构方面
» 缺乏整体性考虑,未形成体系化运维流程,存在运维风险;
» 未建立体系化的服务目录,无法实现标准化和规范化的运维;
» 关键运维流程缺失,仅靠事件驱动及个人经验执行,如没有WarRoom、事件、变更流程等;
» 缺少ITSM工具支撑流程落地。
3、运维工具方面
» 自研CMDB功能不完善,未与其他工具联动;
» 监控告警系统割裂,分散不统一,环境层、硬件层、系统层、网络层、应用层、业务层等没有关联;
» 缺少全链路应用性能监控;
» 缺少变更、事件、WarRoom等运维流程管理工具;
» 日志采集覆盖不全,且未构建统一的日志平台。
基于ITIL标准,构建标准化运维管理体系,引入SRE文化,构建SRE确定性运维体系。从运维组织架构、运维管理流程规范、运维平台、六大领域运维能力以及度量体系五个方面规划设计运维转型的蓝图目标和改进建议。
1 运维组织架构优化设计方案
在运维人员不足情况下,调整组织架构,合理利用现有人力资源,使其能开展更多的运维活动。
标准化运维阶段,设置监控告警中心,对于发生的紧急告警及时响应、及时处理,降低故障恢复时长,减少故障带来的影响。
在SRE转型阶段,增加可用性运维岗位,从被动响应式运维向主动预防式运维转变。运维人员参与产品的高可用架构设计、上线管理等,提升业务可靠性。开展混沌工程,通过模拟故障恢复演练,提升故障的快速发现、快速定界、快速恢复能力。增加运营管理岗位,通过运维质量考核,不断提升运维质量。
2 流程规范设计方案
» 流程规范化、体系化:建立运维流程框架和运维业务指标体系。
» 服务目录化:建立体系化的服务目录,逐步实现标准化规范化的运维。
» 标准流程:设计7个标准化运维流程,包括上线管理、变更管理、监控告警(含OnCall)、事件管理(含WarRoom)、容量管理、账号权限管理、问题管理流程。
(1)上线管理流程:设计上线管理流程,指导业务上线规范管理,防止业务带问题上线。
(2)变更管理流程:设计变更管理流程,指导生产环境软硬件变更管理,减少变更导致服务中断或服务质量下降,确保生产环境安全、稳定运行。
(3)监控告警流程设计:设计监控告警流程(含OnCall),指导监控告警及时发现并有效处理,保障业务的稳定性、服务质量和可用性。
(4)事件管理流程:设计事件管理流程(含WarRoom),指导现网环境事件的受理、处理、升级处理,确保故障高效受理和恢复,支撑SLA达成,明确运维相关领域对各类事件处理的流程,规范事件受理时限和通报机制。
(5)容量管理流程:设计容量管理流程,指导对各IT资源的性能和容量监控,并不断优化,减少资源浪费,节约成本。
(6)账号权限管理流程:设计账号权限管理流程,指导生产环境账号和权限的申请和授予,规范账号权限管理,确保生产环境访问受控,降低安全风险。
(7)问题管理流程:设计问题管理流程,通过有效的问题管理运作,促进产品质量完善,提升产品质量的稳定性。
3 运维工具平台设计方案
通过立体化运维管理平台建立业务全链路追踪体系,实时了解并追踪到应用性能情况,提升用户体验。构建统一的立体化监控中心和运维实践处理平台,进一步完善运维管理体系,保障业务持续稳定,提升运维服务与运维效率。
» 统一门户平台:实现用户中心、日志、监控中心、APM各个模块与自研工具的权限对接,角色和数据权限关系自动构建,以及新用户登录自动创建用户和角色,完成运维监控平台页面与自研工具的集成。
» 应用性能监控:支持对Java、Php、Golang、Python环境下的应用系统进行端到端的应用性能管理分析。
» 日志监控中心:包括日志检索、日志可视化分析、日志异常检测、日志智能告警、日志脱敏、日志关联分析、日志全链路追踪等。
» 配置管理中心:包括模型梳理及设计、数据初始化,主要是业务系统、应用服务、云资源服务节点、基础组件等的对象配置属性信息,并与自研运维平台对接。
» 监控及告警:实现对多指标(应用性能指标、日志监控指标、K8s监控指标、组件监控指标等)的统一接入,可按应用组和应用查看对象的告警、指标趋势、日志、拓扑、配置信息等,从而实现多维度立体化监控。
4 复杂调用链分析,保障业务SLA
针对复杂的业务关系和技术框架,通过强大的全链路业务追踪技术,按照业务技术环境适配完成Java、Php、Golang、Python、JS、异步调用Router的调用链追踪,辅助业务、运维、研发人员保障业务的高可用和SLA,同时通过全链路视图完美呈现业务架构优化后的效果。
5 打通工具壁垒,满足串联分析的场景
引入第三方运维工具,通过实时数据处理和存储的能力,实现多源数据的串联分析,将应用性能、日志、平台、K8s、Prometheus、告警等串联起来,能够快速分析定位问题。
6 统一事件中心,实现集中告警与处置
所有告警统一管理,通过完善的闭环事件处理措施,快速有效地从故障发现到故障分派、故障处置、故障关闭的整个过程,第一时间保障业务安全、稳定、高效地运行。
标准化运维阶段,运维从“无序”向“有序”演进,运维统一标准,流程化、规范化。
向SRE转型,运维从“被动”向“主动”转型:专业化分工、主动分析、主动优化、主动监测与预防,降低故障发生率大于40%。
从“离散”向“集中”转型,有效整合各运维系统及工具,实现运维活动规范化、运维管理流程化、运维工具标准化、运维数据标准化、可视化,告警收敛率达到90%,故障定位平均时间缩减50%。
从“问题驱动”向“价值驱动”转型:以业务发展目标为主线,提升业务体验、服务满意度,促进业务更好发展。
本案例针对传统运维下运维组织架构不完整、流程不完善、运维工具缺失等挑战,引入确定性运维标准化体系,通过确定性运维平台建设,从运维组织、运维流程、运维工具及六大领域运维能力、度量体系全方位帮助企业构建确定性运维体系,促进云端变革,实现运维转型。
- 点赞
- 收藏
- 关注作者
评论(0)