《企业私有云建设指南》一2.6.2统一运维监控平台和告警处理
2.6.2 统一运维监控平台和告警处理
构建一个统一的运维监控平台,必须以运行监控和故障报警这两个方面为重点,将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源、存储资源等都纳入运维监控平台中,并通过消除管理软件、数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制,最终实现规范化、自动化、智能化的大运维管理。
统一运维监控平台的系统建设主要有以下3个要点:
分层告警
在企业级数据中心中会存在多个检测组,下层组织只需要将关键告警信息转发到上层组织。当发生重大故障时,多级组织可以同时发现、分解、解决故障事件。为了减少层级间数据冗余和节省链路带宽,我们可以按级别、类型有针对性地进行数据转发。
监控数据同步
为了提高系统的可用性和业务连续性,我们可以在多个数据中心之间进行数据同步,当其中的监控中心发生故障时,其他备选监控中心可以暂时接管监控工作,当系统恢复时再切换到原有监控中心。
全方位支持模式
企业级数据中心环境下的监控平台可能在不同的地理位置都有服务站点,这些站点可能跨时区、国家或地区。为了有效地监控系统并节省资源,我们可以在多个监控中心之间进行消息转发。
如图2-22所示,在每个数据中心都部署了分控中心,总部部署统一监控中心并与各分控中心保持实时联系,实现告警信息的统一收集、监控与分发。当数据中心1不在工作时间时,其所负责的数据中心告警将由统一监控平台负责分发到其他正在工作的分控数据中心,实现及时处理并达到最佳经济效益。
下面具体介绍应用监控项以及告警处理。对于一个企业的私有云来说,云监控的应用监控项比较多,但大多数只是警示性监控项,具体监控项的描述会在监控项输出的时候归档成表,以下针对主要的两个监控项进行说明。
1.Java进程监控及处理
该监控项在每个云监控应用中都有设置,目的是实时监测应用的Java进程是否有关闭的情况,如果监控报警收到没有Java进程,此时应用管理员应该查看服务器出现的状况,通常情况下只须重启应用即可。
2.端口监控及处理
云监控各应用的运行涉及不同的端口,端口监控的目的就在于确保每一个端口的状态正常,如果出现端口报警,一般情况下重启应用即可。如果出现重启应用解决不了的情况,须到服务器上检查网络状态,系统状态以定位问题所在。
对于运维人员来说,不可能天天盯着数据报表,因此还需要对监控收集到的数据进行报警和处理。
例如,对每个需要监控的主机或服务设置一个合理的报警阈值,当收集到的数据超过这个阈值时,在第一时间自动报警并通知运维人员,反之,运维人员就可以做其他事情,而不用时刻盯着数据报表,这是构建智能监控报警平台必须要实现的一个功能。
对主机或服务的状态值进行监控并当达到指定阈值时进行报警,要实现这个功能并不难,写一个简单的shell脚本就能实现,但是维护性差,并且当需要监控报警的主机或服务越来越多时,脚本的性能就变得很差,管理起来也非常不方便,因此需要有一个专业的监控报警工具来实现这个功能,那么拥有自动化的运维监控工具就非常有必要了。
- 点赞
- 收藏
- 关注作者
评论(0)