- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

nagios 安装部署试验

竹叶青发表于 2019/09/05 20:14:36 2019/09/05

【摘要】 #RH5.3 + VMware +Nagios + 环境虚拟机vmware + 操作系统 linux rh5.3 ###步骤 + rpm -q gcc glibc glibc-common gd gd-devel xinetd openssl-devel + yum install -y gcc glibc glibc-common gd gd-devel xinetd openssl-d...

#RH5.3 + VMware +Nagios + 环境虚拟机vmware + 操作系统 linux rh5.3 ###步骤 + rpm -q gcc glibc glibc-common gd gd-devel xinetd openssl-devel + yum install -y gcc glibc glibc-common gd gd-devel xinetd openssl-devel

***遇见问题:This system is not registered with RHN***

+ *Redhat之所以会出现这个错误是因为没有注册RHN，我们只需要更新一下yum的源就可以了。使用命令 cd /etc/yum.repos.d/ 进入yum的配置目录。*

+ *在终端中输入 wget http://docs.linuxtone.org/soft/lemp/CentOS-Base.repo 命令，下载CentOS- Base.repo文件。*

+ *然后将原有的rhel-debuginfo.repo备份一下，使用命令mv CentOS-Base.repo rhel-debuginfo.repo，将CentOS- Base.repo重命名成rhel-debuginfo.repo。*

+ *成功以后，使用yum install build-essential安装成功。

创建Nagios用户和用户组

查看Nagiox目录权限 # ll -d /usr/local/nagios/
编译安装Nagios

验证程序是否安装正确
切换目录到安装路径（这里是/usr/local/nagios），看是否存在etc、bin、sbin、share、var 这五个目录，如果存在则可以表明程序被正确的安装到系统了。Nagios 各个目录用途说明如下：

安装Nagios插件

安装和配置Apache和Php
Apache 和Php 不是安装nagios 所必须的，但是nagios提供了web监控界面，通过web监控界面可以清晰的看到被监控主机、资源的运行状态，因此，安装一个web服务是很必要的。需要注意的是，nagios在nagios3.1.x版本以后，配置web监控界面时需要php的支持。这里我们下载的nagios版本为nagios-3.4.3，因此在编译安装完成apache后，还需要编译php模块，这里选取的php版本为php5.4.10。
- 安装Apache + # wget http://archive.apache.org/dist/httpd/httpd-2.2.23.tar.gz # cd httpd-2.2.23
  # ./configure --prefix=/usr/local/apache2
  # make && make install *** 若出现错误：则在编译时入加 --with-included-apr 即可解决。***
- 安装Php

出现问题：redhat xml2-config not found，解决方法如下

访问
- http://ip/nagios ##Nagios配置 Nagios 主要用于监控一台或者多台本地主机及远程的各种信息，包括本机资源及对外的服务等。默认的Nagios 配置没有任何监控内容，仅是一些模板文件。若要让Nagios 提供服务，就必须修改配置文件，增加要监控的主机和服务，下面将详细介绍。
默认配置文件介绍
Nagios 安装完毕后，默认的配置文件在/usr/local/nagios/etc目录下。每个文件或目录含义如下表所示：

在nagios的配置过程中涉及到的几个定义有：主机、主机组，服务、服务组，联系人、联系人组，监控时间，监控命令等，从这些定义可以看出，nagios各个配置文件之间是互为关联，彼此引用的。
成功配置出一台nagios监控系统，必须要弄清楚每个配置文件之间依赖与被依赖的关系，最重要的有四点：
第一：定义监控哪些主机、主机组、服务和服务组；
第二：定义这个监控要用什么命令实现；
第三：定义监控的时间段；
第四：定义主机或服务出现问题时要通知的联系人和联系人组。 + 配置Nagios
为了能更清楚的说明问题，同时也为了维护方便，建议将nagios各个定义对象创建独立的配置文件：

其中，变量$USER1$指定了安装nagios插件的路径，如果把插件安装在了其它路径，只需在这里进行修改即可。需要注意的是，变量必须先定义，然后才能在其它配置文件中进行引用。 + commands.cfg文件
此文件默认是存在的，无需修改即可使用，当然如果有新的命令需要加入时，在此文件进行添加即可。
此文件默认不存在，需要手动创建，hosts.cfg主要用来指定被监控的主机地址以及相关属性信息，根据实验目标配置如下：

- hosts.cfg文件
- templates.cfg文件
  nagios主要用于监控主机资源以及服务，在nagios配置中称为对象，为了不必重复定义一些监控对象，Nagios引入了一个模板配置文件，将一些共性的属性定义成模板，以便于多次引用。这就是templates.cfg的作用。
  下面详细介绍下templates.cfg文件中每个参数的含义：

resource.cfg文件
resource.cfg是nagios的变量定义文件，文件内容只有一行： $USER1$=/usr/local/nagios/libexec
配置文件之间的关系

注意：在/usr/local/nagios/etc/objects 下默认有localhost.cfg 和windows.cfg 这两个配置文件，localhost.cfg 文件是定义监控主机本身的，windows.cfg 文件是定义windows 主机的，其中包括了对host 和相关services 的定义。所以在本次实验中，将直接在localhost.cfg 中定义监控主机（Nagios-Server），在windows.cfg中定义windows 主机（Nagios-Windows）。根据自己的需要修改其中的相关配置，详细如下： + localhost.cfg

contacts.cfg是一个定义联系人和联系人组的配置文件，当监控的主机或者服务出现故障，nagios会通过指定的通知方式（邮件或者短信）将信息发给这里指定的联系人或者使用者。

timeperiods.cfg文件此文件只要用于定义监控的时间段，下面是一个配置好的实例：

cgi.cfg文件此文件用来控制相关cgi脚本，如果想在nagios的web监控界面执行cgi脚本，例如重启nagios进程、关闭nagios通知、停止nagios主机检测等，这时就需要配置cgi.cfg文件了。由于nagios的web监控界面验证用户为david，所以只需在cgi.cfg文件中添加此用户的执行权限就可以了，需要修改的配置信息如下：

nagios.cfg文件 nagios.cfg默认的路径为/usr/local/nagios/etc/nagios.cfg，是nagios的核心配置文件，所有的对象配置文件都必须在这个文件中进行定义才能发挥其作用，这里只需将对象配置文件在Nagios.cfg文件中进行引用即可。

- 验证Nagios 配置文件的正确性 Nagios 在验证配置文件方面做的非常到位，只需通过一个命令即可完成：

Nagios提供的这个验证功能非常有用，在错误信息中通常会打印出错误的配置文件以及文件中的哪一行，这使得nagios的配置变得非常容易，报警信息通常是可以忽略的，因为一般那些只是建议性的。看到上面这些信息就说明没问题了，然后启动Nagios 服务。

Nagios的启动与停止

A. 启动Nagios

a. 通过初始化脚本启动nagios

b. 手工方式启动nagios

通过nagios命令的“-d”参数来启动nagios守护进程：

B.重启Nagios

当修改了配置文件让其生效时，需要重启/重载Nagios服务。

a. 通过初始化脚本来重启nagios

b. 通过web监控页重启nagios

可以通过web监控页的 "Process Info" -> "Restart the Nagios process"来重启nagios c. 手工方式平滑重启

C 停止Nagios

a. 通过初始化脚本关闭nagios服务

b. 通过web监控页停止nagios

可以通过web监控页的 "Process Info" -> "Shutdown the Nagios process"来停止nagios c. 手工方式停止Nagios

查看初步配置情况

A 启动完成之后，登录Nagios Web监控页http://192.168.1.108/nagios/ 查看相关信息。

B 点击左面的Current Status -> Hosts 可以看到所定义的三台主机已经全部UP了。

C 点击Current Status -> Services 查看服务监控情况。看到Nagios-Linux和Nagios-Server的服务状态已经OK了，但是Nagios-Windows的服务状态为CRITICAL，Status Information 提示Connection refused。因为Nagios-Windows上还未安装插件，内部服务还无法查看，所以出现这种情况。将在下面具体讲解。

利用NRPE监控远程Linux上的“本地信息”

上面已经对远程Linux 主机是否存活做了监控，而判断远程机器是否存活，我们可以使用ping 工具对其监测。还有一些远程主机服务，例如ftp、ssh、http，都是对外开放的服务，即使不用Nagios，我们也可以试的出来，随便找一台机器看能不能访问这些服务就行了。但是对于像磁盘容量，cpu负载这样的“本地信息”，Nagios只能监测自己所在的主机，而对其他的机器则显得有点无能为力。毕竟没得到被控主机的适当权限是不可能得到这些信息的。为了解决这个问题，nagios有这样一个附加组件--“NRPE”，用它就可以完成对Linux 类型主机"本地信息”的监控。 A NRPE 工作原理

NRPE 总共由两部分组成： check_nrpe 插件，位于监控主机上 NRPE daemon，运行在远程的Linux主机上(通常就是被监控机) 按照上图，整个的监控过程如下：

当Nagios 需要监控某个远程Linux 主机的服务或者资源情况时：

Nagios 会运行check_nrpe 这个插件，告诉它要检查什么； check_nrpe 插件会连接到远程的NRPE daemon，所用的方式是SSL； NRPE daemon 会运行相应的Nagios 插件来执行检查； NRPE daemon 将检查的结果返回给check_nrpe 插件，插件将其递交给nagios做处理。注意：NRPE daemon 需要Nagios 插件安装在远程的Linux主机上，否则，daemon不能做任何的监控。

B 在被监控机（Nagios-Linux）上

a. 增加用户&设定密码

b. 安装Nagios 插件

这一步完成后会在/usr/local/nagios/下生成三个目录include、libexec和share。

修改目录权限

c. 安装NRPE

c.1 安装check_nrpe 这个插件

c.2 安装deamon

c.3 安装配置文件

d. 安装xinted 脚本

编辑这个脚本：在only_from 后增加监控主机的IP地址。

编辑/etc/services 文件，增加NRPE服务

重启xinted 服务

查看NRPE 是否已经启动可以看到5666端口已经在监听了。

e. 测试NRPE是否则正常工作

使用上面在被监控机上安装的check_nrpe 这个插件测试NRPE 是否工作正常。

注：为了后面工作的顺利进行，注意本地防火墙要打开5666能让外部的监控机访问。

f. check_nrpe 命令用法

查看check_nrpe 命令用法

check_nrpe –H 被监控的主机 -c 要执行的监控命令

注意：-c 后面接的监控命令必须是nrpe.cfg 文件中定义的。也就是NRPE daemon只运行nrpe.cfg中所定义的命令。

g. 查看NRPE的监控命令

我们可以很容易知道上面这5行定义的命令分别是检测登陆用户数，cpu负载，sda1的容量，僵尸进程，总进程数。各条命令具体的含义见插件用法（执行“插件程序名 –h”）。

由于-c 后面只能接nrpe.cfg 中定义的命令，也就是说现在我们只能用上面定义的这五条命令。我们可以在本机实验一下。

C 在监控主机（Nagios-Server）上

之前已经将Nagios运行起来了，现在要做的事情是：

安装check_nrpe 插件；在commands.cfg 中创建check_nrpe 的命令定义，因为只有在commands.cfg 中定义过的命令才能在services.cfg 中使用；创建对被监控主机的监控项目； a 安装check_nrpe 插件

只运行这一步就行了，因为只需要check_nrpe插件。

在Nagios-Linux 上我们已经装好了nrpe，现在我们测试一下监控机使用check_nrpe 与被监控机运行的nrpe daemon之间的通信。

看到已经正确返回了NRPE的版本信息，说明一切正常。

b 在commands.cfg中增加对check_nrpe的定义

在最后面增加如下内容：

意义如下：

'check_nrpe' command definition

define command{ command_namecheck_nrpe # 定义命令名称为check_nrpe,在services.cfg中要使用这个名称. command_line$USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ #这是定义实际运行的插件程序.

这个命令行的书写要完全按照check_nrpe这个命令的用法,不知道用法的就用check_nrpe –h查看.

}

-c 后面带的$ARG1$ 参数是传给nrpe daemon 执行的检测命令，之前说过了它必须是nrpe.cfg 中所定义的那5条命令中的其中一条。在services.cfg 中使用check_nrpe 的时候要用 “!” 带上这个参数。

9.3.3 定义对Nagios-Linux 主机的监控

下面就可以在services.cfg 中定义对Nagios-Linux 主机的监控了。

现在我们要监控swap 分区，如果空闲空间小于20%则为警告状态 -> warning；如果小于10%则为严重状态 -> critical。我们可以查得需要使用check_swap插件，完整的命令行应该是下面这样。

我们知道check_swap 现在就可以作为check_nrpe 的-c 的参数使用了

修改了配置文件，当然要重启。

如果你是以独立的daemon运行的nrpe，那么需要手动重启；如果你是在xinetd 下面运行的，则不需要。

由于本实验中nrpe 是xinetd 下运行的，所以不需要重启服务。

在监控机（Nagios-Server）上增加这个check_swap 监控项目

增加下面这一行

在监控机（Nagios-Server）上增加check_http 监控项目

define service{use local-servicehost_name   Nagios-Linuxservice_description HTTPcheck_command   check_nrpe!check_http}

所有的配置文件已经修改好了，现在重启Nagios。

# service nagios restart

可以看到，对于Nagios-Server 和Nagios-Linux 上的相关服务的监控已经成功了，还有Nagios-Windows 上的服务还没有定义，下面讲到。

利用NSClient++监控远程Windows上的“本地信息”

在Nagios的libexec下有check_nt这个插件，它就是用来检查windows机器的服务的。其功能类似于check_nrpe。不过还需要搭配另外一个软件NSClient++，它则类似于NRPE。

NSClient++的原理如下图

可以看到NSClient与nrpe最大的区别就是：

被监控机上安装有nrpe，并且还有插件，最终的监控是由这些插件来进行的。当监控主机将监控请求发给nrpe后，nrpe调用插件来完成监控。 NSClient++则不同，被监控机上只安装NSClient，没有任何的插件。当监控主机将监控请求发给NSClient++后，NSClient直接完成监控，所有的监控是由NSClient完成的。这也说明了NSClient++的一个很大的问题：不灵活、没有可扩展性。它只能完成自己本身包含的监控操作，不能由一些插件来扩展。好在NSClient++已经做的不错了，基本上可以完全满足我们的监控需求。

a 安装NSClient++

从http://www.nsclient.org/nscp/downloads 下载NSClient++-0.2.7.zip

解压到C盘根目录。

打开cmd 切换到c:\NSClient++-0.2.7

执行nsclient++ /install 进行安装

执行nsclient++ SysTray （注意大小写），这一步是安装系统托盘，时间稍微有点长。在运行里面输入services.msc 打开“服务” 看到下图就说明NSClient服务已经安装上了双击打开，点“登录”标签，在“允许服务与桌面交互”前打勾。