集群监控

集群监控

监控指标

  1. load,系统负载,通过top和uptime指令来查看系统的load值,load值越大,系统的CPU越繁忙,一般来说,只要每个CPU当前的活动线程数不大于3,我们就认为负载是正常的,如果每个CPU的线程数大于5,则表示当前系统的负载已经非常高了。Load average 后面跟的三个值分别表示在过去一分钟,五分钟,十五分钟内系统的load值。
  2. CPU利用率, linux下,CPU的消耗主要在用户进程、系统进程、Nice时间、空闲时间、I/O等待时间、硬件中断时间、软件中断时间、丢失时间。通过指令top | grep Cpu,us(User Time)表示CPU执行用户进程所占用的时间,通常越高越好。sy(System Time)CPU执行内核进程所花费的时间,如果过高设计不合理。ni(Nice Time)系统调整进程优先级所花费的时间。id(Idle Time)CPU处于空闲时间,越低越好。wa(Waiting Time)CPU在I/O操作所花费的时间。hi(Hard Irq Time)系统处理硬件中断所占用的时间si(Soft Irq Time)系统处理软件中断所花费的时间。st(Steal Time)等待虚拟CPU的时间,st越高,表示当前虚拟机与该宿主机上的其他虚拟机间的CPU争用较为频繁。输入top指令后,按1可以查看每个核的CPU利用率,按“Shift+H”可以按照线程来查看CPU的消耗情况。
  3. 磁盘剩余空间,磁盘主要用来进行日志写入与文件存储,df –h能够看到磁盘的剩余空间。-h表示按照单位格式化输出。du --ax-depth=1 –h /home 查看home下深度为1的文件所有文件的大小。--max-depth=1表示递归文件的深度为1。
  4. 网络traffic,主要由于大促销好活动、热点事件等网络流量急剧上升引起的。sar –n DEV 1 2,(-n表示汇报网络状况,DEV表示查看的是各个网卡的网络流量,1表示每一秒抽样一次,2表示总共抽样2次)
  5. 磁盘I/O ,指令iostat –d –k,查看磁盘的I/O情况,-d表示查看磁盘的使用情况,-k表示以KB为单位
  6. 内存使用,指令free –m,cached和buffers的空间是预先留出来的,并没有被使用,所以如果free内存不够用时,可以使用cache和buffers来使用。vmstat可以查看虚拟内存的消耗情况。
  7. gps(query per second)每秒的查询数。影响因素:磁盘I/O,网络请求,多个CPU时间片
  8. rt(response time)响应时间。
  9. select/ps,每秒读数据库的记录数,可以通过增加读库来提高速度
  10. update/ps, delete/ps,分库,提高更新删除速度
  11. GC,减少Minor GC的时间与次数,减少Full GC的次数与时间
  12. ping,使用ICMP协议,ping可以检测网络链路是否通畅,远端主机能否到达。ping –c 4 192.168.0.5(-c表示执行ping的次数)、
  13. 应用测监测,使用curl指令,通过curl指令定时访问应用中预留的自检url,可以实时地感知到应用的健康状况,一旦系统无响应或者响应超时,可以输出警报信息,一杯相应的监控调度系统捕捉到,第一时间通知开发和运维人员进行处理。
  14. 业务监测,同样可以通过curl指令。

心跳监测

原文地址:https://www.cnblogs.com/wzyxidian/p/5461285.html