linux 系统监控

1. 系统监视和进程控制工具—top和free
1) 掌握top命令的功能：top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。
2) 了解使用top命令列出系统状态时，系统默认每5秒刷新一下屏幕上的显示结果。

1. 第一行是任务队列信息

12:38:33	当前时间
up 50days	系统运行时间，格式为时:分
1 user	当前登录用户数
load average: 0.06, 0.60, 0.48	系统负载。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

2. 第二、三行为进程和CPU的信息

Tasks: 29 total	进程总数
1 running	正在运行的进程数
28 sleeping	睡眠的进程数
0 stopped	停止的进程数
0 zombie	僵尸进程数
Cpu(s): 0.3% us	用户空间占用CPU百分比
1.0% sy	内核空间占用CPU百分比
0.0% ni	用户进程空间内改变过优先级的进程占用CPU百分比
98.7% id	空闲CPU百分比
0.0% wa	等待输入输出的CPU时间百分比
0.0% hi	硬件中断占用CPU时间的百分比
0.0% si	软件中断占用CPU时间的百分比

3. 第四五行为内存信息。

4. 进程信息

列名	含义
PID	进程id
PPID	父进程id
RUSER	Real user name
UID	进程所有者的用户id
USER	进程所有者的用户名
GROUP	进程所有者的组名
TTY	启动进程的终端名。不是从终端启动的进程则显示为 ?
PR	优先级
NI	nice值。负值表示高优先级，正值表示低优先级
P	最后使用的CPU，仅在多CPU环境下有意义
%CPU	上次更新到现在的CPU时间占用百分比
TIME	进程使用的CPU时间总计，单位秒
TIME+	进程使用的CPU时间总计，单位1/100秒
%MEM	进程使用的物理内存百分比
VIRT	进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
SWAP	进程使用的虚拟内存中，被换出的大小，单位kb。
RES	进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
CODE	可执行代码占用的物理内存大小，单位kb
DATA	可执行代码以外的部分(数据段+栈)占用的物理内存大小，单位kb
SHR	共享内存大小，单位kb
nFLT	页面错误次数
nDRT	最后一次写入到现在，被修改过的页面数。
S	进程状态。 D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
COMMAND	命令名/命令行
WCHAN	若该进程在睡眠，则显示睡眠中的系统函数名
Flags	任务标志，参考 sched.h

cpu利用率与load average

cpu是用来干活的，按照这个层面去理解，每个码农都是一个cpu

cpu利用率：上一天班的时间是8个小时，而码农敲代码的时间为2个小时，2/8=0.25 ,25%就是码农在一天的时间内的利用率（正常情况，cpu利用率<70%）

cpu负载：公司在一分钟内为某个码农安排了3个任务，而1分钟内该码农能做6个任务，那么该码农一分钟内的负载为0.5

　　如果公司在5分钟内为某个码农安排了100个任务，而5分钟内该码农只能做50个任务，那么该码农5分钟内的负载为2.0，即超负荷运转

　　　　 cpu负载<=1:能正常应付

cpu负载>1:超负荷运转

　　　　如果有4核，相当于将100个任务交给4个码农去干，如果每个码农的负载都是100%，那么整体的cpu负载达到4.0则是很正常的现象

多核cpu， load average 应该 <= cpu核数 * 0.7

为何要有1分钟，5分钟，15分钟三种cpu负载？

　　其实之所以要给出3个值，就是希望我们能结合起来看。或者说希望展示一个动态的图表式的数据，比如最近一分钟显示负载120%。而最近5分钟和15分钟显示负载为50%。可能你不用太过担心。但是如果你发现系统的负载一直维持在120%以上，就必须要提高硬件配置了。

cpu利用率和cpu负载过高，都是不好的现象，但是也有可能出现，低利用率，高负载的情况：

　　为一个码农分配了100个项目，毫无疑问，该码农的负载是很高的，但是码农在具体去做一个项目时，可能会碰到需要购买机器，或者查询资料等耗费时间的问题，真正动手写代码的时间可能很短，而这段时间才是码农真正为公司干活的时间，如果每个项目都有类似这种问题，那么100个项目加到一起，码农真正工作的时间也不会太多，这就造成了低利用率。

　　在两种情况下会导致一个进程在逻辑上不能运行，

　　1. 进程挂起是自身原因，遇到I/O阻塞，便要让出CPU让其他进程去执行，这样保证CPU一直在工作

　　2. 与进程无关，是操作系统层面，可能会因为一个进程占用时间过多，或者优先级等原因，而调用其他的进程去使用CPU。

　　因而一个进程有三种状态

3) 掌握free命令的功能：显示内存的使用状态。(下图centos6中查看效果，用二维数组代表FO即free output)

                   1          2          3          4          5          6
1              total       used       free     shared    buffers     cached
2 Mem:      24677460   23276064    1401396          0     870540   12084008
3 -/+ buffers/cache:   10321516   14355944
4 Swap:     25151484     224188   24927296

从操作系统的角度：

　　物理内存FO[2][1]=24677460KB

　　物理内存被使用的内存FO[2][2]=23276064KB

　　可以用内存F[2][3]=1401396KB

　　等式：FO[2][1] = FO[2][2] + FO[2][3]

　　共享内存F[2][4]=0,表示几个进程共享的内存（数据共享）

　　F[2][5]=870540表示已经分配但是还未使用的buffers大小

　　F[2][6]=12084008表示已经分配但是还未使用的buffers大小

　　buffer和cache的解释：

A buffer is something that has yet to be "written" to disk.
A cache is something that has been "read" from the disk and stored for later use.

　　也就是说buffer是用于存放要输出到disk（块设备）的数据的，而cache是存放从disk上读出的数据。这二者是为了提高IO性能的，并由OS管理。

　　Linux和其他成熟的操作系统（例如windows），为了提高IO read的性能，总是要多cache一些数据，这也就是为什么FO[2][6]（cached memory）比较大，而FO[2][3]比较小的原因。我们可以做一个简单的测试

释放掉被系统cache占用的数据；

echo 3>/proc/sys/vm/drop_caches
读一个大文件，并记录时间；
关闭该文件；
重读这个大文件，并记录时间；

　　第二次读应该比第一次快很多。

　　free输出的第二行是从一个应用程序的角度看系统内存的使用情况。

对于FO[3][2]，即-buffers/cache，表示一个应用程序认为系统被用掉多少内存；
对于FO[3][3]，即+buffers/cache，表示一个应用程序认为系统还有多少内存；

　　因为被系统cache和buffer占用的内存可以被快速回收，所以通常FO[3][3]比FO[2][3]会大很多。

　　这里还用两个等式：

FO[3][2] = FO[2][2] - FO[2][5] - FO[2][6]
FO[3][3] = FO[2][3] + FO[2][5] + FO[2][6]

　　free命令的所有输出值都是从/proc/meminfo中读出的。

　　测速命令　　

　　dd if=/dev/sda1 of=/dev/null bs=8k count=800000

4) 掌握free命令的功能：显示内存的使用状态。(下面均为centos7中查看效果)

http://www.linuxatemyram.com/提到使用free命令查看Linux系统使用内存时，used一项会把当前cache的大小也会加进去，这样会造成free这一栏显示的内存特别少：

$ free -m
               total        used        free      shared  buff/cache   available
Mem:           1504        1491          13           0         855      869
Swap:          2047           6        2041

可是实际上，cache根据应用程序的需要是可以回收利用的，因此free这一栏并不能真实地表现有多少“可以使用”的内存。实际系统可用内存应该以available数据为准。

linuxatemyram所提到的free命令也许是比较老的版本，我尝试了RHEL 7.2，Ubuntu 16.04和Arch Linux这3个Linux发行版，均没有出现used包含cache的情况：

$ free -m
              total        used        free      shared  buff/cache   available
Mem:          64325       47437        3150        1860       13737       14373

另外，从man free命令中也可以得到，目前计算used的值是要减掉free和buff/cache的：

used Used memory (calculated as total – free – buffers – cache)

可以使用-w命令行选项得到buff和cache各自使用的数量：

$ free -wm
              total        used        free      shared     buffers       cache   available
Mem:          64325       48287        2476        1859        1430       12131       13524

需要注意的是，free表示的是当前完全没有被程序使用的内存；而cache在有需要时，是可以被释放出来以供其它进程使用的（当然，并不是所有cache都可以释放，比如当前被用作ramfs的内存）。而available才真正表明系统目前可以提供给应用程序使用的内存。/proc/meminfo从3.14内核版本开始提供MemAvailable的值；在2.6.27~3.14版本之间，是free程序自己计算available的值；早于2.6.27版本，available的值则同free一样。

2. 系统中进程的监控—ps（详见linux系统管理P363）
1) 掌握进程的定义：进程是程序的一次动态执行。
2) 掌握守护进程的定义：守护进程是在后台运行并提供系统服务的一些进程。
3) 掌握父进程、子进程的定义：当一个进程创建另一个进程时，第1个进程被称为新进程的父进程，而新进程被称为子进程。
4) 掌握ps命令的功能：用来显示当前进程的状态。
Ps –aux 显示所有的与用户相关的完整信息
系统中进程的监控pstree、kill

查找特定进程 ps aux | grep 'top'

centos7默认没有pstree，需要yum -y install psmisc
1) 掌握pstree命令的功能：以树状图显示程序。
2) 掌握pstree命令的用法举例：
例如：列出PID为4729的进程的进程状态树的命令：pstree 4729
3) 掌握kill命令的功能：把一个信号发送给一个或多个进程。默认发送终止信号。
4) 灵活应用kill命令终止进程
例如：终止PID为3852的进程的命令：kill 3852
5) 灵活应用kill -9命令杀死进程
例如：杀死PID为3906的进程的命令：kill -9 3906
3. 掌握pgrep命令的功能：通过名称或其他属性查找进程
例如：查找名为firefox的进程的命令为：pgrep firefox
4. 掌握pkill命令的功能：通过名称或其他属性发信号给进程
例如：杀死名为firefox的进程的命令为：pkill firefox

ps -elf 查看其父进程