Nagios脚本编写事例

目标：编写一个简单的nagios脚本，实现监控client上的nginx进程是否启动，假如没启动的话发出报警。

首先在master上对nagios的配置文件进行设置，修改services.cfg文件，在最末尾添加上以下内容：

define service{
use    local-service,services-pnp
host_name    centos1
service_description    CheckNginxState  #监控服务的名称
check_period    24x7
notification_options    c          #表明critical的情况时发出报警
check_command    check_nrpe!check_nginx #定义执行命令的名称，需与客户机上的nrpe.cfg上的定义一致
}

补充一点是对客户机添加脚本与master的commands.cfg无关，commands.cfg只定义面对master的本地服务的。本次我们是对客户机增加服务，因此就无需在master的commands.cfg上定义我们新增的命令了。这个问题当时困扰了我很长时间才发现。

转到客户机上，修改nagios上的nrpe.cfg文件，添加上以下内容：

command[check_nginx]=/usr/local/nagios/libexec/check_nginx.sh

解析一下这行文本的含义：

check_nginx，命令的名称，正如上面所说，需要与master上的servers.cfg中的check_command所引用的名称一致。

/usr/local/nagios/libexec/check_nginx.sh，这是脚本在客户机上的实际位置。

接下来编写check_nginx.sh这个脚本，这个脚本需放在/usr/local/nagios/libexec/下。脚本内容如下：

#!/bin/bash
a=`ps -e|grep nginx|wc -l`
if [ -n $a ];then
    echo "nginx is running."
    exit 0
else
    echo "nginx is NOT running."
    exit 2
fi

在这个脚本中，当检测到nginx进程正在运行时，脚本会返回0给nagios，代表nginx正常运行；当检测到nginx进程不存在时，会返回2给nagios，触发critical告警。

把脚本保存并加上执行权限，重启一下master的nagios服务，即可生效。