双轮驱动,构建运维“数循环”
来源:华为云确定性运维专刊(第五期)
数据驱动运维的方法与实践
一、前言:
数据驱动运维是近几年业界的主流观点,但数据如何驱动运维?其方法及如何指导实践?尚未有清晰方案。本文构建了数据驱动运维方法论,提出“数据驱动运维”(DDOps: Data Driven Operation)的观点,构建运维领域的“数循环”,以数据为抓手打造完整的智能化运维实践方法论,为客户提供“道”、“法”、“术”一体的完整解决方案,希望对行业“用数据做运维”实践有所启发与帮助。
二、核心逻辑:双轮驱动,构建运维“数循环”
对于数据驱动运维来说,其核心目标是构建运维领域的“数循环”,而不是孤立地看待如何管好和应用数据(图1):
图1 运维数据“数循环”理念
更进一步探究数据驱动运维的核心内涵,IT运维数据是其逻辑底座,是实现“数据驱动”的基础,而构成数据驱动逻辑的内涵为:数据双轮驱动——数据驱动的两个轮分别是(图2):
(1)前轮驱动(聚焦目标),即价值牵引轮,负责引导IT运维的实践方向,通过指标数据度量运维价值,验证“养数”成果,利用数字形成自顶而下的IT运维持续优化机制。
(2)后轮驱动(聚焦建设),即建设推动轮,利用数据为IT运维的建设提供动力,驱动流程、平台、场景和运维模式蜕变。
图2 数据驱动运维的核心逻辑:双轮驱动
三、“前轮驱动”:面向运维目标的持续优化(以用促通)
通过对IT服务价值度量的梳理,拉通业务、场景、流程与资源的端到端指标链,将指标数据作为抓手,用数字说话,形成自上而下的持续优化体系,打造数据驱动的IT运维持续优化能力(图3)。
图3 前轮驱动:面向运维目标的持续优化
数据驱动运维“前轮驱动”的核心抓手是IT服务价值度量,IT服务价值度量是通过收集和分析相关数据来衡量和评估IT服务的质量、效率和效益的过程。IT服务价值度量的重要性在于它可以帮助组织了解和评估其IT服务的实际效果和价值。通过收集和分析相关数据,可以获得关于IT服务的各种指标和度量结果,如服务可用性、平均故障修复时间、客户满意度等。这些指标和度量结果可以帮助组织了解其IT服务的优劣,从而指导决策和改进。 数据驱动运维强调基于数据的决策和实践。通过收集和分析相关数据,可以获得客观的、可量化的信息,而不仅仅是主观的意见或直觉。例如,在面临故障修复决策时,可以通过分析历史数据了解不同解决方案的效果和成本,并选择最优方案。IT服务价值度量需要依赖数据来进行分析和评估,而数据驱动运维则需要IT服务价值度量来提供支持和指导。通过结合IT服务价值度量和数据驱动运维,组织可以更加科学地管理和优化其IT服务,提高效率和质量,降低成本和风险。
结合国内外的相关研究,笔者提出了运维价值度量体系(简称OVMS,Operation Value Measurement System)建设的模型,主要包括总体框架、五大价值维度、全栈全生命周期覆盖、指标体系建设方法、价值度量的实施方法等。
运维价值度量体系建设的总体框架如下图4:
图 4 运维价值度量体系(OVMS)建设总体框架
该总体框架以支撑组织的业务战略和实现组织的业务价值为目标,基于国内外的一些成熟理论和模型,结合运维领域的实际需要进行逐层构建。关于运维价值度量体系可参考《华为云确定性运维专刊第二期》笔者所著《运维价值度量体系建设方法与实践》一文。
四 、“后轮驱动” :驱动运维的五大转变(以通促用)
4.1 IT和业务深度融合,运维模式转型
数据驱动IT运维模式从 “被动-〉主动、离散-〉集中、人工-〉智能、模糊-〉可观测”转变。IT运维模式转型的四层内涵包括:
(1)被动-〉主动:主动预防性运维,改变传统的响应式、灭火式的运维模式,转为主动预防的模式,将避免重大故障、降低整体故障率作为核心目标开展运维工作,如开展:系统可用性持续强化、风险级应急管理、故障趋势预测等。
数据驱动逻辑:主动预防性运维的工作开展需要建立在高质量数据的基础上,以下以系统可用性强化活动举例。可用性持续强化包含以下几个步骤:
1.系统脆弱项识别
2.系统强化方案制定
3.系统强化实施
4.系统强化效果验证
其中第1步、第4步离不开数据的驱动
第1步 系统脆弱项识别:需系统架构数据、部署数据、节点配置数据、近期性能及负载数据等。
第4步 系统强化效果验证:基于监控数据的汇聚,评价系统强化后的效果是否达成预期。
(2)离散-〉集中:一体化运维,以数据融合为基座,构建场景导向的一体化的运维模式,实现合作型团队向协作性团队的变革,如:一体化监控、研运一体、监管控一体等。
数据驱动逻辑:
其一,数据实现了对运维场景、流程、工具平台的改造,将影响IT运维组织的工作模式,会促成IT运维组织由传统以职能线条为主,线条间的合作模式往以企业业务目标导向,IT运维价值流为主线的跨职能协作模式。
其二,通过数据融合,将运维团队的关注点从各自职能范畴内的业务,上移至以价值场景导向的融合业务,各团队针对同一“运维实践”实现工作界面共享、运维数据共享,改变运维团队间的沟通机制。
(3)人工-〉智能:智能化运维,以自动化和智能化为手段替代传统人工运维方式,获得更好的质量、效率、成本,如:故障趋势分析、故障自愈、自动化发布、自动化部署等。
数据驱动逻辑:
智能化运维的核心要素包括:组织、流程、资源、技术、数据、算法、知识,其中数据又是支撑其他6个要素的基础,所以智能化运维离不开数据驱动。
(4)模糊-〉可观测:可观测运维,IT运维可观测不仅仅是通过监控的手段实现IT运维对象状态可观测、性能可观测,还包括IT运维其他管理领域,如:运维场景效果可观测、流程效能可观测、组织绩效可观测等。、
数据驱动逻辑:
可观测运维的核心逻辑是将观测对象的各维度情况,以数字化的方式呈现给对应的观测者,而这些数字的输出均源自各领域观测资源数据,以及这些数据的运算结果。
4.2 增强与创新IT运维价值场景
数据驱动运维,一方面增强了传统的运维单场景,一方面创新衍生出新的运维融合场景,对价值场景的驱动,能够更深度地解决复杂的运维问题。在数据运维方法论中,将运维场景划分为“可用性保障”和“管理运营类”,如下图5所示:
图5 运维场景大类
为了让读者更好理解,下图以IT团队职能的视角划分维度,将这些场景又分为单点场景和融合场景两类(图6):
图6 IT运维价值场景地图(IT团队职能视角)
(1)数据驱动单点场景:通过跨领域数据融合,为原生单点场景提供更多增益数据,强化单点场景的业务深度。例如离散告警场景:该场景告警由单一监控工具发出(暂时不提统一告警的模式),各监控工具因为没有获取监控对象的相关归属信息(归属方、维护方、责任人等),无法动态获取告警的通知对象及联系方式,告警的通知规则的接收方只能设置为静态的电话/邮箱/IM号,当人员组织架构发生改变后,这些规则的维护工作很容易被忽视。而在数据融合的基础上,即使不做统一告警服务,单监控工具也能获取到监控对象的相关权属信息,实现动态通知规则的配置。
(2)数据驱动融合场景:数据的融合为融合场景实践提供土壤。融合场景是指跨多工具平台、跨不同职能领域的运维场景,例如:全链路可观测、一体化监控、统一告警、重保综合支持等。这些场景需要跨领域、跨工具、跨团队数据流转和集成,才能具备上层业务的融合。例如一体化监控场景:一体化监控将不同分层管理对象的监控信息(网络、设备、中间件、数据库、交易等)、管理对象的近期变更信息、日志信息融合在一个监控平台里,为跨职能团队的用户提供统一的工作界面。这种监控模式的实现的核心工作就是数据的标准化、融合及应用。
4.3 场景导向的IT运维流程再造
流程再造不是要颠覆已有的运维流程,而是站在运维场景的视角,以场景的价值目标导向,对已有的流程进行重新审视,再进行重构和融合。
基于数据驱动运维的方法论,传统的“运维流程网络模式” 可以向 “场景化实践模式”转变。IT运维数据的融合为IT运维流程从传统的“运维流程网络模式”向基于价值场景的“场景化实践模式”的转变提供了基础和驱动力(ITIL 4的核心之一)。“运维流程网络模式”示例如下图7,该模式注重流程本身而不是全局的价值链,忽视了虑价值和场景。
图7 传统的运维流程网络示例
“场景化实践模式”的典型特征是,某个实践域中由多个流程、多类人员、多个组织参与其中,将他们凝聚在一起的是价值目标和价值链,而价值链的落地本质上是数据流的实现。
这里以“可用性保障”的流程再造为例进行说明。流程再造并不是指删除并重新设计已有的运维流程,而是站在运维场景的视角,以场景的价值目标导向,对已有流程进行重新审视,再进行重构和融合。
以“可用性保障”类场景为例,针对可用性保障,可将整体的价值目标拆解为:
● 事前 —— 降低故障率(避免重大故障发生、减少发生概率);
● 事中 —— 提高故障恢复的效率,提高故障恢复的有效性;
● 事后 —— 减少同类故障的再次方式,沉淀经验和知识。
若以传统的“流程为中心”的思维,会粗浅地将这些内容对应到“故障”处理流程,而以场景导向的思维,会将这个课题先转化为以下的场景蓝图8:
图8 可用性保障场景蓝图
基于该蓝图,原有的流程,如故障、连续性管理、变更管理、应急管理、监控和告警等将面临以下的变革。
(1)流程可能是会跨多场景存在的。例如上述地图中故障流程将会跨事中和事后两类场景,在这种情况下,对于故障流程的设计不再局限在流程图和角色对应更多是在不同场景下,干系人关心什么、想看到什么、想联动哪些信息、有哪些任何组织要进行信息共享。
(2)单场景会包含多个流程。例如事前类的场景,会包含变更、连续性管理、SRE工作流程、 建转运流程等内容,如果按传统的流程为中心的思路,以流程先行的设计,很容易出现场景内流程设计缺失或不足的情况,导致场景目标的达成打折扣。
(3)流程间的关联不再是简单的数据互相引用。例如变更流程与其他流程的联动,传统的流程为中心的模式,变更流程与其他流程联动的落地方式通常是简单的数据引用,会忽视为什么要联动、什么时候要联动、联动的时候有什么数据要进行传递、联动的过程什么样的。如变更后导致的信息系统的架构发生变化,那么这个系统原有的风险库、应急预案以及配套的计划性日常保障任务是否也应同步?如果要同步后续工作的Owner是谁?同步的结果有谁怎么确认?这些都是场景导向的流程设计会考虑,但流程为中心的设计会忽略的问题。
4.4 运维模式变革推动IT组织架构优化
数据驱动运维模式转型以及数据治理、智能运维带来内外部协作以及管理变革作用下,推动IT组织架构也需要优化。
其一,数据驱动本身涉及一些工作,如数据治理、指标体系需要有具体的人员进行对应。另外整体IT团队也会逐渐强化对数据的敏感度和认知,人员能力象限也应发生拓展和改变;
其二,通过数据驱动的运维模式转型,重新定义各团队职责、边界以及协作模式,优化已有人员组织模式;
其三,通过数据驱动带来的运维技术变革,势必对运维效率、质量带来提升,原有的人员岗位职责以及人效分配逻辑也应随之改变,同时,如何改变以及改变后端效果评价都离不开数据驱动;
其四,通过数据驱动运维模式的持续迭代,为团队培养更多一专多能、多专多能的人才,进而推进IT运维组织架构变革。
4.5 数据统一融合助力IT运维平台重塑
IT运维数据治理的核心成果之一是“IT运维数据的集中和融合”,对IT运维平台能形成以下驱动:驱动统一的、集成式的IT运维数据的构建,为高端IT运维融合场景提供融合数据,反向驱动IT运维平台的进一步融合重塑(图9)。
图9 离散运维走向集成式的统一运维
在数据驱动的背景下,软件工具从“离散”的运维工具集走向融合型的一体化运维平台,是已经发生的事实。与以往的“离散”相比,这种“统一”表现在以下几个方面。构建统一运维管理平台,提供统一门户,实现统一用户管理及登录、工具模块的平台集成,通过统一数据采控实现已有和未来多种运维工具的集中式数据采集及其调控通过搭建统一的运维数据管理平台实现运维数据的集中存储、分析、指标体系的构建与管理以及数据质量和安全监管,通过统一告警事件管理的构建实现各类监控工具的告警事件消息归集、告警事件的抑制以及规范化管理,通过统一监控管理构建实现各类监控数据的高纬度分析、实现多维度数据高效联动,通过可视化管控中监控大屏与数据报表能力的构建,帮助各类用户基于数据进行快速分析与决策,通过构建统一的运维服务管理帮助组织建设高效规范的流程体系与服务模式,提供高质量、高效率的IT服务。
(一)统一运维门户:应提供统一的运维门户,实现组织、用户与权限集成、多系统单点登录以及数据采集、数据处理、数据分析和展示。同时还应提供统一身份管理中心,实现统一用户管理、统一权限管理、统一认证管理和统一审计管理四大核心功能,实现组织机构和用户的全生命周期管理。
(二)统一数据采控:应具备运维数据统一采集管理能力,实现运维数据的集中化采集管理与调控,负责从运维工具或系统中通过各类协议或方法采集运维元数据、性能指标数据、事件数据、工单数据等。
(三)统一数据管理:应建立统一的运维数据管理,负责对采集的数据进行过滤、清洗、加工、存储、统计计算、数据建模、发布数据API等,能够对数据资产统一进行管理,满足对数据应用的敏捷开发、智能分析、数据血缘、数据地图、数据质量、数据服务等能力,能够充分利用数据,可实现复杂业务的数据开发任务,支持多种计算和存储引擎服务。
(四)统一事件管理:应实现统一的运维事件管理,对来自各种监控系统的告警消息与数据指标进行统一接入与处理,支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析,利用多种算法实现告警事件的收敛、异常检测、原因分析等智能运维场景化应用,实现问题事件全生命周期的全局管控。
(五)统一监控管理:应提供统一的运维监控管理,结合大数据分析及人工智能等功能,监控范围覆盖网络设备、服务器、应用系统、虚拟化、存储、动力环境、安全设备等,通过收集业务日志、监测指标以及业务链路关系等相关数据进行融合,构建业务拓扑链路,实现全资源、综合、立体、可视化的实时监控分析,以关系串联指标、日志、告警、属性、变更等数据,结合算法对业务、应用、服务、基础设施进行全资源统一监控、统一分析,帮助快速发现、分析并定位故障。
(六)统一可视化管控:应构建统一的可视化运维管控中心,提供各种数据可视化方式包括可视化大屏与数据报表等,通过可视化展示系统的运行状态、性能指标、异常情况等信息,帮助运维人员更好监控和管理系统,快速发现和解决问题,提高系统可用性和稳定性。
(七)统一运维服务管理:应构建运维服务管理,为组织提供高质量、高效率的IT服务,整合企业或组织的所有IT资源,包括硬件、软件、网络、安全等资源,通过标准化、流程化的运营方式来提供IT服务。
5 “后轮驱动”核心抓手:运维数据治理
运维数据治理是构筑数字化运维的基石,需要继承和借鉴传统业务数据治理的理论方法,针对运维数据的特点,明确运维数据的治权和治理框架,形成运维数据治理体系,提供高质量、全覆盖的运维数据支撑数字化运维场景更好落地实施。
数据治理是一个复杂的工程性工作,涉及大量资源投入,需首先明确运维数据治理不是为了治理而治理,其核心意义需要从运维价值驱动,即:控制IT风险、提升交付速度、提升客户体验、提高IT服务质量。在此价值创造的基础上,模型提出了运维数据治理的目标:获得更加准确、好用的运维信息资产。这个目标有3个关键词:“准确”的数据是智能化运维的基础,数据不准将导致智能运维场景不可用;智能运维是一种全新的运维模式,“好用”的数据将有助于智能运维的应用,数据应用又能反过来提升数据的准确性;运维数据类型很多,要用好数据,需要数据达到“信息资产”级别。
要让运维数据转变为信息资产,需要围绕治理方法、治理过程、技术平台3要素,持续完善运维数据治理。在治理方法上,要关注以运维指标体系为代表的主数据管理,以CMDB为代表的广义元数据管理,并基于数据标准、质量管理、安全管理形成运维数据治理的关键治理工作。在治理过程上,需要借鉴PDCA、IT治理、精益创新等思路,重点划分为策略、建设、运营三个闭环。在治理工具上,应建立存量与新建工具组合的工具支撑,包括运维数据平台、指标体系、CMDB、监控、数据门户等工具。
- 点赞
- 收藏
- 关注作者
评论(0)