运维价值度量体系建设方法与实践——云智慧(北京)科技有限公司副总裁陆兴海等
来源:华为云SRE确定性运维专刊(第二期)
作者简介
陆兴海:云智慧(北京)科技有限公司副总裁,目前负责咨询业务。具备十五年互联网、信息化以及运维相关领域产品规划、设计与研发经验,是国内IT相关服务领域最早的实践者和专家之一,智能运维国标核心编写组成员、工信部信创工委会专家库成员。在作为云智慧产品负责人的七年内,主导与推动十几款运维相关核心产品的落地实现与营销、推广相关工作,帮助赢得了多个行业的核心客户认可,持有发明专利五项,著有《运维数据治理:构筑智能运维的基石》一书,合译《数字经济2.0:引爆大数据生态红利》一书。
汪樟发:云智慧咨询部研究员,毕业于清华大学经济管理学院获博士学位,高级经济师,曾供职于世界500强企业总部、业务一线和产品创新部门,在战略规划、运维支撑数字化转型、流程挖掘与优化、产品创新、知识产权方面有丰富经验,发表研究成果10多项,发明专利5项,合译《i产权:全球创新时代的智力成果获利》,参译《牛津创新手册》。
黄晓:云智慧咨询部经理,曾供职于国内头部上市软件公司,自2006年起从事IT服务管理领域,是国内ITIL思想最早的一批推广和实践专家之一,ITSS国标专家组成员,参与多项IT服务管理国标及行标的编制。工作经历覆盖IT服务领域产品研发、市场营销、售前推广、解决方案、业务咨询、项目实施、国标编制等领域。曾带领前公司团队发布多款IT服务领域自主知识产权产品,主导多个千万级IT运维项目交付实施。
作者按:“运维”两字博大精深,只能从其中的某些点来展开论述。经过实践中与多个运维负责人沟通交流,围绕在企业价值下重新思考运维价值,由新的运维价值重新设计运维的数字化世界,这点也和华为云提出的确定性运维有很多共通之处。在运维领域,我们承认墨菲定律,在这个前提下利用诸如“持续韧性”(Continue Resilience)标准这样的确定性方法来解决各种“不确定”的运维问题,其输出的价值也应该是确定性的,只有确定性的运维价值才能给运维带来有迹可循、可度量的数字化价值表达,也能真正促进智能运维的深耕与不断开花结果。
1 前言
随着数字化转型的深入推进,IT运维的重要性正逐渐凸显,IT运维的价值如何体现越来越得到人们的关注。本文总结了国内外IT运维价值相关的方法模型,结合多年的实践经验,创新性提出了IT运维价值度量体系建设方法论,以帮助相关人员明确运维价值度量的概念和实施方法,从而更加科学、有效地建立运维价值度量体系,提升以业务价值为核心的运维决策和管理能力,帮助构建和落地基于数据驱动的智能运维,助力组织的数字化转型。
2 运维呼唤更数据化的价值呈现
“每年花掉这么多钱,部门规模一直在加人,IT到底能给集团带来什么?”
“IT部门,尤其是运维,如何实现降本增效?你的方案是什么?”
“运维,你们是怎么思考支撑业务的?你们的价值怎么体现的?”
某集团IT负责人在做预算申报及汇报时经常受到老总的质询。很可惜,这并不是个案,而是以CIO为代表的IT负责人普遍遇到的问题。本文笔者作为IT运维行业的从业者,曾与不下数百名CIO、运维负责人进行沟通,得到的一个具有普遍性的认知是:对于运维项目的上马,包括各种监控工具、运维平台,ITSM工具或是算法场景,大家都特别想知道:这个运维项目究竟给组织带来了哪些什么样的价值?
实际工作中IT负责人经常遇到了以下挑战:
» 预算难获批,IT部门与业务、财务部门之间沟通困难、没有共同语言;
» 运维项目在实施后,投资后评价困难,说不清楚项目建设的业务价值;
» 持续改进缺少目标和方向感,不能根据业务需要进行动态、敏捷的调整;
» 团队成员自我价值感不强,难以将日常工作与业务价值创造联系起来。
组织出现以上问题,未能将运维价值进行量化和数据化呈现,往往是因为:
(1)缺乏行之有效的运维价值度量方法;
(2)未建立“以业务价值创造为中心”的运维价值度量指标体系;
(3)未建立满足运维价值度量需要的价值管理体系。
有没有解?答案是肯定的。
摒弃以往“非量化”或者“非体系量化”的模糊的价值呈现,我们需要通过“数据化”的IT运维价值度量手段来解决这个问题。
3 国内外IT价值度量的实践及启示
从文献检索情况来看,国内外专门针对“IT运维”价值度量的研究很少,关于IT价值度量、特定运维产品或基础设施价值度量、IT服务管理价值度量的研究相对较多。以下对国内外较有影响力的相关研究与实践作简要介绍。
3.1 传统IT价值度量的财务方法
组织的IT建设一般是通过IT投资项目的形式进行,在论证IT投资项目可行性时,往往要对项目价值进行评估。常用的评估指标有ROI(投资回报率)、TCO(总拥有成本),还有NPV(净现值)、IRR(内部收益率)、EVA(经济增加值)、投资回收期等。传统财务指标方法的优点是:可量化IT投资项目的经济结果;是IT项目投资决策的重要依据。存在的缺点是:涉及对未来现金流的预测,操作难度大,易产生较大偏差;难以度量非财务的、战略性的价值;不太适合对费用性支出(如购买云服务、SaaS服务)的价值评估。
3.2 IT咨询研究机构提出的价值度量方法
IT咨询研究机构Gartner非常关注IT的业务价值(BVIT:Business Value of IT),据网站公开资料,Gartner提出了一个业务价值模型(可作为财务会计类指标的补充)。该模型前沿观点。
将业务影响分为三个方面共九类(需求方面:市场、销售、产品开发;供给方面:客户、供应商、运营;支持方面:人力资源、IT、财务与监管)。在IT支持上,提出了系统绩效、IT支持绩效、IT业务合作比例、服务水平有效性、新项目指数、IT总成本指数等6个指标及其计算方式。该模型用于IT价值度量的优点:提出了体现IT价值的六个非财务指标,可用于与业务部门沟通IT的影响或价值;只聚焦在六个指标,综合程度较高;多数是IT运维/运营指标。该模型的不足:指标体系化不足,没有层层分解并建立逻辑链条,业务指导性不够。Forrester也是领先的IT研究咨询机构,开发了TEI(全称Total Economic Impact,总经济影响)方法以度量IT的经济价值。该方法已被业界使用了20多年,微软、IBM、ServiceNow等多家公司都曾委托Forrester对其产品进行TEI评估。TEI 由四个要素以及相关的量化工具和方法组成,四个组成要素是:对 IT的影响(成本)、对业务的影响(收益)、未来选择权(灵活性)、风险。Forrester TEI的优点:它是对ROI 、TCO 的扩展,从收益、成本、期权、风险四个方面更全面的量化价值;积累了大量行业数据,问卷和访谈等调研方法运用已经成熟。Forrester TEI的不足:TEI作为一个综合性指标,没有建立指标之间的层层关联,对引导IT部门创造业务价值的指导性不够,难以呈现非货币化的价值。
3.3 运维服务厂商ServiceNow的产品价值度量
ServiceNow是全球领先的IT工作流服务提供商,在IT服务管理(ITSM)、IT运营管理(ITOM)、研发运维一体化(DevOps)等领域都有成熟产品。ServiceNow委托Forrest开发了价值计算器(结合Forrest的TEI方法和ServiceNow的客户调研数据),可以为产品售前及客户成功阶段的价值评估提供参考。在价值计算器中,用户可选择要度量的产品(比如ITSM),按要求输入少量数据(比如年收入、年事件量、年计划外停机次数等),价值计算器就可以给出以美元为单位的总价值、细分价值。价值计算器是ServiceNow度量产品价值的一个工具;除此之外,ServiceNow还指导客户开展价值度量,建立价值管理体系,以提高客户从ServiceNow产品及服务中获得的价值。该价值计算器的优点:能直接呈现运维产品的业务价值,包括总价值、细分价值;为客户的采购投资提供决策参考;价值计算具有较好的行业调研和客户数据基础。价值计算器的不足:度量结果是基于行业经验和历史数据的一个概算,并不精准;也不是一个运营监测、持续改进的工具,不能引导IT运维工作与业务价值对齐。
3.4 国内有关IT价值度量的标准
国内还没有成体系的与IT价值、IT运维价值度量相关的标准或指南发布。2016年以来,我国先后发布了《软件测试成本度量规范》、《软件工程 软件开发成本度量规范》、《信息技术 云计算 云服务计量指标》等标准,可以看出,现有标准主要关注IT成本。2022年10月,发布了《信息技术服务 运行维护 第7部分:成本度量规范》(GB/T 28827.7-2022),该标准将于2023年5月1日开始实施。信通院发布的《研发运营一体化(DevOps)通用效能度量模型》标准覆盖敏捷开发场景、持续交付场景、技术运营场景、成本管理场景及组织与人员管理,助力企业整体研发效能提升,为企业在数字化转型浪潮中的研发度量提供重要抓手。
以上汇总的国内外运维价值相关的方法和工具,相信能给大家一个直观的印象,大多模型都是偏理论和“售前”阶段,落地的指导性相对较弱,总结起来有如下几个特点:
» 很多研究和实践只考虑价值或成本,但未考虑价值度量成果的落地应用。
» 在运维项目立项、投资决策阶段,ROI、NPV等度量方法可用于预测项目在整个生命周期的价值,对于投资决策而言是必要的,但存在两个主要问题,一是对非财务价值考虑不足(比如客户体验提升、大数据自身的价值),二是不适合费用性支出项目(如购买SaaS产品或服务)的价值度量。
» 对于已实施或正在实施的运维项目,一般是度量其在当期或过去一段时期所产生价值,而非整个项目生命周期的价值,通常采用的方法是结合业务成果目标,考察运维KPI的改进及其量化的价值。
4 运维价值度量体系建设的方法论
结合国内外的相关研究,根据云智慧在IT运维价值度量和呈现上的丰富实践,本文提出了运维价值度量体系(简称OVMS,Operation Value Measurement System)建设的方法论。方法论主要包括总体框架、五大价值维度、全栈全生命周期覆盖、指标体系建设方法、价值度量的实施方法等。
4.1 运维价值度量体系建设的总体框架
运维价值度量体系建设的总体框架如下:
该总体框架以支撑组织的业务战略和实现组织的业务价值为目标,基于国内外的一些成熟理论和模型,结合运维领域的实际需要进行逐层构建,包括以下10个要点:
(1)以终为始,从质量、成本、安全、效率、效益五个维度体现运维价值。IT运维解决的具体问题包罗万象,但归根结底是为了解决这五个方面的业务问题,所以运维价值度量要围绕这五个维度来进行量化、细化。
(2)业务价值驱动,在业务目标和运维成果之间建立联系。
运维价值始终是要站在运维所服务客户的角度来确定的,要从组织期望实现的业务目标出发,将业务目标逐层分解,直至明确在运维层面应实现的价值、成果。
(3)围绕价值度量需求,构建运维价值指标体系。
价值度量的基础是数据,进一步来讲是有层次、有逻辑的数据指标体系。指标体系的构建应满足价值度量的当前需求和实际,也要适当考虑未来度量的需要。除了提供数据,指标体系的另一个重要作用是将运维价值层层分解,传导到运维一线。
(4)将运维价值量化,并尽可能呈现经济价值。
无论是财务性还是非财务性的价值,都必须用数据指标进行量化。效益和成本维度多数是财务性指标,质量、效率和安全维度的价值也可尝试用财务性或货币性指标来展现(通俗讲就是“多少钱”)。
(5)利用价值度量来驱动运维数据治理。
数据指标体系对于价值度量非常重要,但要有良好的数据治理基础才能发挥作用。如果相关数据没有线上化、指标口径(如名称、计算方式、数据来源、计量单位)不统一、数据没有标准化(如格式、类型、定义、精度、值域)、数据采集和更新不及时、数据准确性差,那么运维价值度量的效果就差。因此要在运维价值度量的驱动下,持续强化运维数据治理工作。
(6)价值度量覆盖运维全栈和全生命周期。
随着DevOps、敏捷、精益等实践不断落地,运维价值度量从研发开始就要考虑,并覆盖从研发、测试、发布、部署到运维、持续运营的全生命周期;价值度量可覆盖IT运维及运营的全栈,包括各种运维监控(如基础监控、应用性能监控、网络性能监控、监控中心)、ITSM、CMDB、运维算法场景(如日志分析、异常检测)等领域。
(7)通过工具实现运维价值度量体系的落地实施。
运维价值度量高度依赖数据,在有了方法论之后,还应该有数字化的工具来帮助落地。价值度量数据的采集、数据建模、数据的实时统计、指标体系构建和配置、运维价值计算、运维价值可视化等,都需要工具支撑,才能变得可行、高效。
(8)面向不同受众、不同对象,进行差异化的运维价值传递。
应为高管、业务领导、运维平台团队分别创建数据可视化分析,以跟踪运维KPI及对应价值的变化,促进建立以价值为中心的决策和运营体系。为运维服务或流程的所有者、一线员工、最终用户等更广泛的利益相关者提供定制化数据呈现,以沟通运维价值,指导日常工作。
(9)注重度量成果应用,发挥价值度量本身的价值。
充分发挥和彰显价值度量的价值,对于价值度量体系的建设意义重大。在运维项目立项阶段,价值度量成果可用于支持投资决策、预算编制等;在运维项目实施阶段,价值度量成果可用于项目实施更正、优先级调整、价值呈现、阶段汇报、结算汇报等;在持续运行阶段,价值度量成果可用于运行监控、价值沟通、绩效评估、迭代改进等。
(10)强调价值管理体系建设及运营改进。
运维业务价值度量应该是持续进行的,要定期跟踪运维价值目标的实现、核心指标的运行情况。要从组织、制度、流程、工具等着手,建立运维价值管理体系,持续提升运维的业务价值
4.2 运维价值呈现的五大维度
4.2.1 保质量
保质量,是指保证组织对外提供业务所依赖的IT基础设施、应用、数据等可靠、可用、连续,不影响组织对外提供业务。在业务连续保障的思维中,可以参考架构设计中“故障一定会发生”的思路,梳理分解影响业务连续性因素,量化这些因素的评估能力,持续完善组织能力、流程机制、应用架构与工具平台支撑。
从运维层面来看,一是要主动利用各种手段来分析和排查故障,避免影响业务质量、业务连续性的问题发生,二是在故障发生时能够以最快速度、最小损失完成故障修复。为度量运维在“保质量”方面的价值,可以采用的指标有“降低严重/重大中断的次数”、“减少对严重/重大中断进行诊断的时间(小时)”等。以“故障处置场景“为例(注:引自彭华盛公众号运维之路文章),为度量“提升业务续性保障水平”,相关的量化度量指标包括但不限于:自动发现事件的百分比、发现事件的平均时间、备机接管成功次数百分比、备机接管的平均时间、应用级异常自愈自动化成功率、业务影响分析,涉及业务中断或重要业务量损失比例、问题诊断分析及解决的平均时长、应急协同响应时长、应急恢复时效性与平均处理时长等。
4.2.2 降成本
受到新冠疫情影响,很多组织发展受到冲击,为获取持续增长的突破,越来越多的组织把视线转向了内部,希望通过推进精细化管理来实现降本增效。单从成本这一课题来讲,运维相关的成本包括IT硬软资源(硬件、云资源、CDN等)的投入、人力成本(各类运维工程师、外包人员、合作伙伴)、沟通和协作成本(时间和管理花销)。IT运维需要充分考虑从建设阶段到运维再到持续运营全生命周期各个阶段的各个环节,在每一个环节如何能够实现在保障业务的前提下的成本降低。其基本的思路是售前摸清阶段性成本优化的现状与及基线,寻找到最合适的突破点,其次通过建立目标指标明确优化改进的方向和方法,接下来综合利用管理以及技术手段实现对影响成本目标的各项关联指标的整改优化,之后还要从持续改进的角度来不断对目标指标和影响因素进行持续优化。
某省移动公司的IT资源优化工作可以给我们一起启发,该省移动私有云上建设的IT系统众多,由于移动的私有云性质,不针对租户收取资源使用费用,存在着租户资源申请较随意,应用下线后资源不回收的情况。为此数据治理团队在进行配置数据标准化、规范化的过程中,开展了梳理垃圾配置数据,实现资源回收的活动,从2018年到2020年,几乎每年回收资源价值都在4千万元左右。通过价值度量和数据治理,实现准确掌握运维服务资源使用情况,平衡资源配置,有效降低了运维服务成本。
4.2.3 增效率
组织数字化转型的主要表现是数字化业务占比提升、业务运营效率提升,二者都需要依赖IT运维实现敏捷应对和快速交付,对运维效率要求越来越高。最终检验运维效率的一个核心指标就是面向业务的整体调度和整体交付能力。
运维可通过很多方式提升组织效率。首先,IT运维部门可以推进采用新架构、新技术和新工具以提升效率,加快业务服务的交付速度,比如运维可以通过引入行业云、公有云,提供简单、按需、所见即所得的基础设施服务,提升研发工作效率、减少重复建设、提升资源利用率;第二,通过现代化IT服务管理,加快事件和请求的处理,减少员工和管理者在与IT相关的数据收集、故障处理等方面的时间;第三,运维可以推进发布部署流水线在线化,让软件测试、部署、发布更加快速,让发布过程人人可见,更早的发现并解决问题,通过在线的部署版本管理增强持续交付中的持续发布能力;第四,通过定期识别并释放低效能业务系统资源,将有效IT资源倾斜到高效能的应用系统,以此提升IT交付业务的效率。
4.2.4 提安全
安全是组织发展和业务开展的生命线。提安全,要以“业务系统风险控制”为核心,将安全建设与业务相适配,建立基于业务的安全架构,建立监测、分析、响应等集中安全管理体系,从系统级、数据级别、应用级别等维度去对待安全问题,保障IT最终承载的业务安全。“提安全”的前提是建立有效的安全管理体系,有合理的信息安全架构和技术支撑,有完善的应急处置机制。保障IT所承载业务的安全,是安全运维的主要任务。运维安全价值可以细化分解到网络安全、系统安全、数据库安全、中间件、开发安全、权限管理、前端安全等运维领域。其中,网络安全的价值度量可通过网络资产健康度、网络安全风险、保密风险、处置质效等指标体现。
4.2.5 促效益
在最近几年疫情的大背景下,企业的核心使命是“活下去”,有些人对于运维是否能够驱动业务,为业务运营创造价值甚至提出了怀疑和否定的观点。诚然对于IT而言在相当长的时间内,其主要矛盾还是聚焦在“降本增效”上,但运维工作前置、IT数据更广泛的与最终客户链接以及更进一步与业务融合已经是既定事实,而IT运维有可能成为数字经济背景下最能完整而准确感知用户体验的部门。
从运维角色与价值重定位的角度来讲,运维也需要再进一步,利用运行数据运营分析辅助业务决策,运维应该结合其对应用系统逻辑、链路等的观测,以及己掌握的运行状态与业务感知数据,为业务感知、业务运营、业务创新等提供决策支持,促进收入增长和业务转型。在数字化、网络化、移动化的时代,客户体验直接影响客户的购买行为进而影响销售收入,IT运维在提升客户体验、促成交上大有可为。
4.3 度量范围面向运维的全栈全生命周期
价值度量可应用于运维的全栈和全生命周期,从全生命周期来看,包括研发运维、运维监控、运维数据治理、IT服务管理、持续运营等阶段,全栈是运维生命周期各阶段度量的细化和具化。
4.3.1 研发效能度量
开展研发效能度量的目标是让研发效能可量化、可分析、可提升,通过数据驱动的方式更加科学地评估和提升效能。研发效能度量的成功落地需要一个相对完善的体系,包含数据采集、度量指标设计、度量模型构建、度量产品建设、数据运营等多个方面。研发效能的度量围绕业务价值开展,既关注质量、成本、效益等结果面,也关注协作能力、工程能力、技术能力等过程面指标。传统的研发效能度量主要关注交付速度、质量、成本、能力,新一代研发效能度量在价值流的基础上开展,考虑从需求、设计、开发、测试、发布、运维全流程的价值流动,与业务价值挂钩更紧密,实现由业务价值驱动的研发交付。
从指标体系设计来看,体现交付速度的指标有需求前置时间、开发交付周期、需求吞吐量等;体现交付质量的指标有需求评审缺陷率、设计评审缺陷率、代码审查缺陷率、提测成功率、线上缺陷率、变更成功率等;体现交付成本的指标有需求预期执行率、设计返工率、开发人力成本、工作量分布、人员流动率等;体现交付能力的指标有预算执行率、在制品数量、构建成功率、自动化测试比例、部署成功率等。体现研发价值流效率的指标有流时间(需求交付周期)、流速率(需求吞吐量)、流负载、流效率、流分布等。
4.3.2 智能运维监控价值度量
智能运维监控最核心的价值直接体现在保障质量以及提升安全性两个维度,但故障定位与排查也直接能反映到整体的解决效率以及对用户满意的提升上。运维监控相关的度量是非常丰富的,因为围绕运维监控涉及相当多的工具与场景,比如各种监控工具如基础监控、APM、NPM、日志管理,各种算法场景如异常检测、根因分析、告警收敛等。从整体来说,以往传统的顶层考虑指标如MTTR、MTBF以及各种SLA指标依然作用很大,但是下级的各种管理与技术维度,即对应每个场景都会有一套相应的价值度量指标体系,也是需要关注的重点。管中窥豹,以下基于一些项目案例,给出几个例子供参考。
4.3.3 运维数据治理价值度量
运维数据治理最根本的价值在于为智能运维提供高质量的运维数据服务。通过实现运维数据的全面线上化,支撑智能运维的切实落地,为数字化转型提供基石保障。
» 通过构建一套适用于组织的运维数据资源管理制度和标准,实现数据的规范化、集成化、标准化管理,为数据消费奠定基础;
» 通过建设统一的运维数据库,与各监控平台实现对接,对运维数据进行统一管理,打破数据孤岛现象,实现数据融合;
» 以满足实际需求为目标,通过对数据应用场景进行梳理,明确智能运维建设方向,实现对IT资源的高效利用,
促进保质、降本、增效。
举例说明,如运维数据治理价值度量中关于数据质量的评价指标体系,需包括内在数据质量(如准确性、可信度、客观性和信誉度)相关指标,场景数据质量(如增值性、及时性和关联性)相关指标,表达数据质量(如可解释性、可理解性、简洁性)相关要求以及访问数据质量等相关的考察与评价指标。
再比如面向全生命周期管理的数据治理工作中,对运维数据治理的持续运营工作,需要从运维数据使用情况、数据质量、数据管理过程、数据变现效能、统一运维数据平台的基础保障能力、数据采集能力、数据完备度、数据的消费与供给情况等多个角度来度量与评价。
4.3.4 IT服务管理价值度量
随着近年来企业数字化转型浪潮的掀起,信息化的发展阶段已经逐步由大规模建设转到了以应用为主的运维阶段。针对运行维护,各组织依旧存在诸多挑战。
例如:(1)组织总体运维能力无法测量;(2)运维对业务的支撑情况无法体现;(3)组织向用户承诺的SLA缺乏设定标准;(4)组织各流程质量、效率缺乏衡量基线。
针对挑战,沿用建设时期的管理思路和管理方法与运维阶段的管理需要已不相适应。为确保达到建设目标,取得预期效果,组织需建立一整套满足明确性、衡量性、可接受性、实际性和时限性的IT服务管理价值度量指标体系,以从质量、安全、效率、成本、效益等多个维度,综合反映IT服务管理整体价值,体现前期信息化整体规划与建设的价值(如图4所示)。
4.4 运维价值指标体系的建设方法
指标是运维数据治理体系建设的核心抓手之一,也是运维数据中台的核心输出,大量数据应用场景都建立在指标之上。运维价值度量的基础是数据,核心是要以业务价值为牵引,围绕质量、成本、安全、效率、效益这五大价值维度,构建一套能反映运维价值的数据指标体系。运维价值指标体系建设非常有挑战,但是有方法可循。以下简要介绍我们研究提出的D-CREAM方法或模型(更详尽的说明可参考《运维数据治理:构筑智能运维的基石》)。
D-CREAM模型包括维度、分层分类、关系、评估、属性、建模六个维度。
(1)维度(Dimension)。
维度是指对所度量对象的属性进行划分的方式。单纯谈指标但不区分维度,会导致度量不准确,且价值有限。以“降低故障的平均解决时间(MTTR)”这个指标为例,我们可以从城市、系统等维度进行细化,比如“降低来自xx城市故障的MTTR”、“降低xx生产系统故障的MTTR”。
(2)分层分类(Classification)。
指标体系应该呈现树状结构,自上而下层层分解。比如,对于“降低由变更导致的事故数量”这个指标,我们可以分解为三个领先指标,分别是“每月的变更次数”、“计划外变更”、“平均每次变更中已完成测试的占比”。
(3)关系(Relation)。
指标变量之间的关系分为函数关系、相关关系,相关关系又分为依存关系(a受b的影响)和平行关系(a与b相互影响)。在价值度量指标体系建立时,我们要清楚各层、各类指标之间的关系,同层级指标应该互斥或相关性较弱,上下级指标间应该是函数关系或依存关系。
(4)评估(Evaluation)。
指对指标体系中关键指标的取值、指标间的关系等进行评估评价。要为关键指标确定阈值(如目标值、基准值)、权重,以作为价值分析和度量的依据。以“降低由变更导致的事故数量”为例,可以为其设定目标值为10%,基准值为5%。
(5)属性(Attribute)。
属性是指指标和维度的特性。确定指标、维度的属性,是进行指标管理、指标数据治理的基础。将运维指标的属性信息分为四类:基本信息、统计信息、口径信息、管理信息。维度属性可以从维度编号、维度中文名称、维度英文名称、维度值举例、维度值描述等进行定义。以“降低故障的MTTR”这个指标的统计信息属性为例,包括指标维度(如城市、系统)、统计周期(如每周、每月)、数量单位(如分钟)、数据格式(如hh:mm:ss)。
(6)建模(Modeling)。
建模是指构建指标变量之间、运维对象之间的数量模型、关系模型。在运维价值度量中,价值计算公式应该尽可能简单易行。
运维指标体系构建和运用分为五个实施步骤:需求定义、体系构建、平台建立、实际运用和管理维护。根据运维工作需要,从主题域角度可编制业务运维指标库,指标库包含的指标覆盖IT的业务价值指标、IT卓越运营指标、IT基础设施监控指标、客户/用户体验指标、关键业务运营绩效指标等。另外从分层体系构建角度,运维指标体系整理纳管业务、应用、服务、组件、主机、硬件等多种类型的指标数据,建立指标库模型并对指标进行标准化定义、分类和属性划分。
4.5 运维价值度量的实施方法
组织的运维价值度量应如何开展?从哪里开始?ITIL4的7个指导原则在此依然适用,包括“聚焦价值”、“从你所在的地方开始”、“通过反馈实现迭代式进步”、“保持简单和实用”等。基于这些原则可知,运维价值度量不一定要搞大规划、大蓝图,可立足当前实际,从特定领域、场景开始进行价值度量,积极运用价值度量成果,体现价值度量的价值,通过敏捷迭代来不断提高度量水平、扩大度量范围。
运维价值度量的实施步骤包括:(1)明确度量目标;(2)设计度量内容(包括设计度量领域和场景、设计度量指标);(3)做好价值度量准备(数据、人员、工具等);(4)执行价值度量;(5)评审和持续改进。
以某汽车制造企业的IT服务价值度量为例。该企业年产销量超过百万,生产负荷高,厂区分散,开启了线上销售等业务模式,系统用户数日益增加,运维部门需要确保系统高可用,抑制系统重要故障发生,提高故障发生后的业务恢复效率。该企业希望通过IT服务管理价值度量体系建设项目,明确IT服务管理价值,提升IT服务管理的标准化、制度化、流程化、平台化以及移动化,为系统的高可用性提供保障。该项目围绕“降本、提质、增效”的业务价值,聚焦度量场景,设计度量指标体系,执行价值度量,做好工具落地。基于度量的需求,项目组整理了价值度量指标(集),统一了指标的名称、计算方式、数据来源、计量单位等。项目组通过CMDB、指标体系管理平台、自定义报表中心等工具,将价值度量体系落地,持续跟踪运维价值。
通过项目实施,该企业实现了对IT服务价值的量化度量,提升了数据治理水平,建立了成套的价值度量指标体系,完善了价值度量的制度、流程。通过IT服务价值度量成果的应用,三个月后,该企业的运维服务成本降低5%,故障平均解决时间降低10%,客户满意度提升25%,对引导运维水平持续提升、保障业务连续性起到了积极作用。
5 总结和建议
通过IT运维价值度量,组织能够将业务价值创造与IT运维对应起来,实现对整个价值创造链条的感知、监测,为数字化转型提供保障;IT部门降本增效有了直接抓手,数据驱动的智能运维有了更坚实的基础,对组织战略的落实更加到位,IT运维部门的预算和支出决策沟通将更加顺畅。本文提出的OVMS框架和方法可以帮助组织和IT部门行之有效地建立这样的运维价值度量体系。
随着度量体系建设的完善,组织可尝试更多地将IT运维价值与“钱”直接挂钩,以货币形式度量运维价值(虽然这点真的很困难)。组织应建立“以业务价值为中心”、“用数据说话”的运维团队文化,习惯从五大维度来思考运维价值,运用敏捷、精益的理念来不断提升运维价值度量和价值呈现的水平,让包括业务领导在内利益相关者能够看到运维价值,获取广泛支持。价值度量体系建设是“价值管理体系”的组成部分,在运维价值度量体系建设的同时,组织应从组织结构、制度流程、管理工具等方面做相应设计和调整。
6 参考文献
[1] 陆兴海,彭华盛。运维数据治理:构筑智能运维的基石[M]. 北京:机械工业出版社,2022
[2] Kandaswamy.R,Furlonger.D.The Gartner Business Value Model: A Framework for Measuring Business Performance [R/OL]。https://www.gartner.com,2022
[3] 彭华盛。数字化时代,重新思考IT运维价值[EB/OL].[2021-03-29].https://www.infoobs.com/article/20210329/46271.html
拓展阅读:华为云SRE确定性运维专刊(第二期)
- 点赞
- 收藏
- 关注作者
评论(0)