集群监控

监控指标

load，系统负载，通过top和uptime指令来查看系统的load值，load值越大，系统的CPU越繁忙，一般来说，只要每个CPU当前的活动线程数不大于3，我们就认为负载是正常的，如果每个CPU的线程数大于5，则表示当前系统的负载已经非常高了。Load average 后面跟的三个值分别表示在过去一分钟，五分钟，十五分钟内系统的load值。
CPU利用率， linux下，CPU的消耗主要在用户进程、系统进程、Nice时间、空闲时间、I/O等待时间、硬件中断时间、软件中断时间、丢失时间。通过指令top | grep Cpu,us(User Time)表示CPU执行用户进程所占用的时间，通常越高越好。sy(System Time)CPU执行内核进程所花费的时间，如果过高设计不合理。ni(Nice Time)系统调整进程优先级所花费的时间。id(Idle Time)CPU处于空闲时间，越低越好。wa(Waiting Time)CPU在I/O操作所花费的时间。hi(Hard Irq Time)系统处理硬件中断所占用的时间si(Soft Irq Time)系统处理软件中断所花费的时间。st(Steal Time)等待虚拟CPU的时间，st越高，表示当前虚拟机与该宿主机上的其他虚拟机间的CPU争用较为频繁。输入top指令后，按1可以查看每个核的CPU利用率，按“Shift+H”可以按照线程来查看CPU的消耗情况。
磁盘剩余空间，磁盘主要用来进行日志写入与文件存储，df –h能够看到磁盘的剩余空间。-h表示按照单位格式化输出。du --ax-depth=1 –h /home 查看home下深度为1的文件所有文件的大小。--max-depth=1表示递归文件的深度为1。
网络traffic，主要由于大促销好活动、热点事件等网络流量急剧上升引起的。sar –n DEV 1 2,(-n表示汇报网络状况，DEV表示查看的是各个网卡的网络流量，1表示每一秒抽样一次，2表示总共抽样2次)
磁盘I/O ,指令iostat –d –k,查看磁盘的I/O情况，-d表示查看磁盘的使用情况，-k表示以KB为单位
内存使用，指令free –m，cached和buffers的空间是预先留出来的，并没有被使用，所以如果free内存不够用时，可以使用cache和buffers来使用。vmstat可以查看虚拟内存的消耗情况。
gps(query per second)每秒的查询数。影响因素：磁盘I/O，网络请求，多个CPU时间片
rt(response time)响应时间。
select/ps，每秒读数据库的记录数，可以通过增加读库来提高速度
update/ps, delete/ps，分库，提高更新删除速度
GC，减少Minor GC的时间与次数，减少Full GC的次数与时间
ping，使用ICMP协议，ping可以检测网络链路是否通畅，远端主机能否到达。ping –c 4 192.168.0.5(-c表示执行ping的次数)、
应用测监测，使用curl指令，通过curl指令定时访问应用中预留的自检url，可以实时地感知到应用的健康状况，一旦系统无响应或者响应超时，可以输出警报信息，一杯相应的监控调度系统捕捉到，第一时间通知开发和运维人员进行处理。
业务监测，同样可以通过curl指令。

集群监控

集群监控

监控指标

心跳监测