linux监控平台搭建-监控项

linux监控平台搭建-监控项

本人运维某生态互联网监控平台服务。过程中遇见了很多问题。目前互联网有很多的开源监控工具:nagios、zabbix、falcon、cacti...各有优点。这里不讲解监控工具的优缺点。写一些新搭建监控平台。需要哪些监控项。避免监控一头雾水。具体每个监控项会有若干小项。

监控的简单架构

wKiom1iwAfuCo6lqAACL7NUnZWg923.jpg-wh_50

具体一个机器监控项。基本就是下面的这些。尽量少的监控项,更加高效的分析报警

(1)首先一定是基础的硬件层面(机器的的基础组件)

ipmi 、监控cpu、温度、卡槽、raid状态、内存

wKiom1iwBq2ybBnSAALTx2lbqM8987.jpg-wh_50

(2)系统层面监控。(这里只介绍linux的相关监控)

CPU、内存、连接数、网卡、磁盘、inode、系统负载、TCPEXT、远控卡状态、打开的文件数、磁盘只读、进程数、swap读写频率

采集系统信息:网络上连、内存(厂商,型号,大小,个数)、磁盘(厂商,型号,大小,个数)、cpu(厂商,型号,大小,个数)

(3)基础服务

日志监控:系统日志、基础服务日志、rsyslog、DNS检查、ntp检查时区、puppet自动化管理工具

(4)基础操作与进程

端口,进程,登陆次数,密码修改。使用人命令收集(保存7天)、cpu高的进程、连接数高的进程、内存高的进程

wKioL1iwCdXwxQ7dAAN36U3zTbQ513.jpg-wh_50

(5)应用层监控

mysql为例:cpu、磁盘、内存、日志、连接数、队列、锁、操作频率(增删查改)

wKioL1iwCJzxvEAwAAE-uFCiLD8694.jpg-wh_50

(6)补充监控

ping监控、web(http、https)监控,snmp监控,rpc接口监控、机器互相ping监控、telnet端口、系统基础日志分析

wKioL1iwB9fjzbn9AAB9PhK3ZCs958.jpg-wh_50

(7)报警平台

报警平台:邮件、短信、微信、电话

服务的日志:采用的BI部门来分析。监控部门提供报警接口(采用token认证)

参考:

http://blog.51cto.com/asinego/1901154

原文地址:https://www.cnblogs.com/robinunix/p/8489698.html