《企业私有云建设指南》一2.7 运维管理
2.7 运维管理
2.7.1 IT运维流程与规范
随着信息化的飞速发展,IT信息系统已成为支撑企业运作不可缺少的一部分,企业内部建立了各种信息系统,如ERP系统、CRM系统、生产执行系统、办公自动化系统等。目前,虽然信息技术在企业中的应用得到了前所未有的重视,但是企业中普遍存在“重建设、轻运维”,“重技术、轻流程”等问题,导致对IT运维工作投入不足,缺乏规范化的运维管理流程。其实从信息系统的整个生命周期来看,实施建设只占其生命周期的20%,而其余80%的时间都是对其进行运行维护,所以运维阶段是IT生命周期中的关键阶段,如果IT的运维管理做得不好,那么这些花费大笔投资建立起来的系统将无法带来预期的效益。
由于缺乏规范的运维管理体系,导致企业普遍存在以下问题:
◆ 运维人员就像救火队员一样处于被动的服务状态,只有当问题已经发生后才进行紧急处理,不能预防问题的发生。
◆ 缺乏统一的服务台,用户请求随意性大,他们直接找有经验的信息人员,导致能干的人员成天处理无价值的琐碎事情,价值无法有效体现。
◆ 缺乏规范的运维制度和流程。在处理问题时,没有对问题进行记录和分类,导致无法跟踪和监控问题的处理情况。
◆ IT运维的相关经验没有积累和共享。由于缺乏对运维过程的记录,使得问题的处理方法只有当时的维护人员掌握,相关经验难以积累和共享。
◆ 运维人员绩效无法量化。在运维工作中没有建立量化的考核指标,IT运维质量和运维人员的绩效无法量化,使得运维人员的工作积极性得不到提高。
因此实现运维管理从传统被动式服务转变为主动预防服务,以流程贯穿整个运维管理过程,实现运维管理的标准化、规范化和流程化是目前企业信息化建设急需解决的问题。
那么如何建立规范的IT运维流程与体系呢?从实践来看,需要做好以下几方面的工作。
1)标准化。比如说,我们数据中心经常要进行巡检,不同的人巡检,其效果是不一样的,因为不一样水平的人能够发现的问题不尽相同。那么针对硬件、小型机、x86、存储等,做到这些环节的巡检标准化,甚至可以用软件来统一实现是否可行?经过近一年的努力,我们把巡检标准化这个难题给解决了。现在不管哪个员工到现场,根据这份标准化流程和分析方法做出来的巡检报告质量能保证水平基本一致。从这件事情我们可以窥见标准化的重要性。
2)自动化。一旦能够标准化了,下一步我们就可以考虑运维的自动化了。现在很多企业都在谈论运维自动化,但如果企业运维的各种工具、平台、知识体系都不标准化,怎么能做到自动化?即使做出来了,这种自动化也是虚的。在做运维自动化的过程中,企业采集了大量指标,做了大量的监控告警,但每天成百上千个告警跳出来,根本解决不完—这不是在做自动化,而是给我们的运维添乱、添堵,给运维人员造成巨大的精神压力。所以说,考虑自动化之前,一定要先考虑运维标准化,当我们能把运维的一系列工作包括采集、分析、监控、操作等全部标准化了,自动化的问题也会迎刃而解。
3)可视化。自动化实现后还需要做可视化,为什么呢?这是必须完成的一个环节,它可以把采集到的大量数据通过一种可视化方式表现出来,很好地把一些指标向运维人员展示并在一定程度上解放运维人员,降低运维成本。但是在做可视化的过程中,我们不能再走以前的老路。以前我们使用的运维自动化工具都是一些商业软件,并且这些商业软件通常是基于网管式方法,这些网管软件面面俱到,但是不够专业。举个例子,比如说现在有一个业务系统,这个系统里面有12个网络设备、90个服务器,不同的人关注的点是不一样的,但是专业的网管软件只能采集一套数据。因此这里就涉及在引入可视化时,不单单要把数据展示出来,还要做到场景化运维。对于哪怕同一个拓扑图,网管人员、安全人员和业务人员会根据自身关注的指标体系,看到不一样的内容,即不同的人关注不同的场景。
当我们把前面所有步骤都完成了,后续就可以实践智能化了,也就是引入大数据分析。通过大数据分析,我们能够发现以前很多关注不到的问题,一些以我们的知识能力达不到的分析层面。至此,我们的运维流程和体系就逐步完善起来了,同时智能化的大数据分析对我们的IT运维来说也是很好的补充。
- 点赞
- 收藏
- 关注作者
评论(0)