性能测试中vmstat命令的常见使用。

vmstat是Linux中常用的一个命令，尤其是在进行性能测试时，使用该命令，往往能辅助我们进行性能问题定位。

我们先看一下这个命令执行得到的数据。

[root@xxx ~]# vmstat 1 10
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 486716 2798308 586292 636208 0 0 7 9 0 0 1 1 98 0 0
0 0 486716 2798300 586300 636212 0 0 0 140 381 714 1 0 99 0 0
0 0 486716 2798448 586300 636232 0 0 0 40 378 685 1 0 99 1 0
0 0 486716 2798448 586300 636236 0 0 0 0 316 595 0 0 100 0 0
0 0 486716 2797912 586300 636236 0 0 0 0 388 662 1 0 99 0 0
0 0 486716 2797780 586304 636236 0 0 0 36 432 693 1 0 99 0 0
0 0 486716 2797912 586304 636236 0 0 0 4 407 667 1 0 99 0 0
0 0 486716 2798076 586304 636236 0 0 0 40 384 685 0 0 100 0 0
0 0 486716 2798076 586304 636236 0 0 0 28 387 672 1 0 99 0 0
0 0 486716 2798076 586304 636236 0 0 0 0 408 703 1 0 99 0 0

一下子看到这么多数据，这些都代表什么意思呢。我们就来详细了解一下。

指标	含义
r	r是第一列的监控数据，代表了目前实际在运行的指令队列（也就是有多少任务需要CPU来进行执行），从数据来看，这台服务器目前CPU的资源比较空闲，如果发现这个数据超过了服务器CPU的核数，就可能会出现CPU瓶颈了（在判断时，还需要结合CPU使用的百分比一起来看，也就是上图中最后5列的数据指标），一般该数据超出了CPU核数的3个时，就比较高了，超出了5个就很高了，如果都已经超过了10时，那就很不正常了，服务器的状态就很危险了。如果运行队列超过CPU核数过多，表示CPU很繁忙，通常会造成CPU的使用率很高。
b	b是第二列的监控数据，表示目前因为等待资源而阻塞运行的指令个数，比如因为等待I/O、内存交换、CPU等资源而造成了阻塞，该值如果过高了的话，就需要检查服务器上I/O、内存，CPU等资源是不是出现了瓶颈。
swpd	swpd是第三列的监控数据，表示虚拟内存(swap)已使用的大小（swap指的是服务器的物理运行内存不够用的时候，会把物理内存中的部分空间释放出来，以供需要运行的程序去使用，而那些释放出来的空间可能来自一些很长时间没有什么操作的程序，这些被释放的空间会被临时保存到Swap中，等到那些程序要运行时，再从Swap分区中恢复保存的数据到内存中，swap分区一般使用的都是磁盘的空间，磁盘的I/O读写一般会比物理内存慢很多，如果存在大量的swap读写交换，将会非常影响程序运行的性能），也就是切换到内存交换区的内存数量(单位为k)，此处需要注意，并不是swpd的值大于0，就是服务器的物理内存已经不够用了，通常还需要结合si和so这两个数据指标来一起分析，如果si和so 还维持在0左右，那服务器的物理内存还是够用的。
free	free是第四列的监控数据，表示空闲的物理内存的大小，就是还有多少物理内存没有被使用（单位为k），这个free的数据是不包含buff和cache这两列的数据值在内的。
buff	buff 是第五列的监控数据，表示作为Linux/Unix系统的缓存的内存大小（单位为k），一般对块设备的读写才需要缓冲，一般内存很大的服务器，这个值一般都会比较大，操作系统也会自动根据服务器的物理内存去调整缓冲区的内存使用大小，以提高读写的速度。
cache	cache是第6列的监控数据，表示用来给已经打开的文件做缓冲的内存大小，cache直接用来记忆我们打开的文件，把空闲的物理内存的一部分拿来做文件和目录的缓存，是为了提高程序执行的性能，当程序使用内存时，buffer/cached会很快地被使用，当空闲的物理内存不足时（即free的内存不足），这些缓存的内存便可以释放出来。
si	si是第7列的监控数据，表示每秒从磁盘（虚拟内存swap）读入到内存的大小，如果这个值长期大于0，那物理运行内存可能已经是不够用了。
so	so是第8列的监控数据，表示每秒写入磁盘（虚拟内存swap）的内存大小，so刚好和si相反，si一般是将磁盘空间调入内存，so一般是将内存数据调入磁盘。
bi	bi是第9列的监控数据，表示块设备每秒读取的块数量（从磁盘读取数据，这个值一般表示每秒读取了磁盘的多少个block），这里的块设备（block）是指系统上所有的磁盘和其他块设备，默认块大小是1024byte。
bo	bo是第10列的监控数据，表示块设备每秒写入的块数量（往磁盘写入数据，这个值一般表示每秒有多少个block写入了磁盘）。通常情况下，随机磁盘读写的时候，bi和bo这2个值越大（如超出1024k)，能看到CPU在IO等待的值也会越大。
in	in是第11列的监控数据，表示每秒CPU的中断次数，包括时钟中断。
cs	cs是第12列的监控数据，表示 CPU每秒上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。系统运行时，如果观察到in和cs 这两个指标非常高，那就需要对系统进行性能调优了。
us	us（user time）是第13列的监控数据，表示用户模式CPU使用时间的百分比，该值一般越高，说明CPU被正常利用的越好，笔者曾经在给一个机器学习算法（密集型CPU应用）做压力测试时，us的值可以接近100，那说明CPU已经充分被算法服务使用了。
sy	sy是第14列的监控数据，表示内核系统进程执行时间百分比(system time)，sy的值高时，说明系统内核消耗的CPU资源多，这并不是一个服务器性能好的表现，通常in、cs、io的频繁操作等过高，都会引起sy的指标过高，这个时候我们应该要去定位原因了。
id	id是第15列的监控数据，表示空闲 CPU时间的占比，一般来说，id + us + sy = 100,一般我认为id是空闲CPU使用率，us是用户CPU使用率，sy是系统CPU使用率。
wa	wa是第16列的监控数据，表示I/O等待时间百分比，wa的值高时，说明IO等待比较严重，这可能由于磁盘大量作随机访问造成，也有可能磁盘出现瓶颈（块操作）
st	st是第17列的监控数据，表示CPU等待虚拟机调度的时间占比，这个指标一般在虚拟机中才会有，物理机中，该值一般维持为0，我们都知道虚拟机中的CPU一般是物理机CPU的虚拟核，一台物理机一般会有多个虚拟机同时在运行，那么此时虚拟机之间就会存在CPU的争抢情况，比如某台虚拟机上运行着占用CPU很高的密集型计算，就会导致其他的虚拟机上的CPU需要一直等待密集型计算的虚拟机上CPU的释放，st就是等待时间占CPU时间的占比，该值如果一直持续很高，那么表示虚拟服务器需要长期等待CPU，运行在该服务器的应用程序的性能会受到直接的影响，笔者曾经在压测时发现，该值越高，也会引起sy的值变高（因为操作系统内核需要不断的去调度CPU）。

vmstat 还可以对disk做很多的分析

vmstat

-d prints disk statistics
-D prints disk table
-p prints disk partition statistics

-d可以看到磁盘读写的统计分析情况

[root@xxxxxx ~]# vmstat -d
disk- ------------reads------------ ------------writes----------- -----IO------
total merged sectors ms total merged sectors ms cur sec
ram0 0 0 0 0 0 0 0 0 0 0
ram1 0 0 0 0 0 0 0 0 0 0
ram2 0 0 0 0 0 0 0 0 0 0
ram3 0 0 0 0 0 0 0 0 0 0
ram4 0 0 0 0 0 0 0 0 0 0
ram5 0 0 0 0 0 0 0 0 0 0
ram6 0 0 0 0 0 0 0 0 0 0
ram7 0 0 0 0 0 0 0 0 0 0
ram8 0 0 0 0 0 0 0 0 0 0
ram9 0 0 0 0 0 0 0 0 0 0
ram10 0 0 0 0 0 0 0 0 0 0
ram11 0 0 0 0 0 0 0 0 0 0
ram12 0 0 0 0 0 0 0 0 0 0
ram13 0 0 0 0 0 0 0 0 0 0
ram14 0 0 0 0 0 0 0 0 0 0
ram15 0 0 0 0 0 0 0 0 0 0
loop0 0 0 0 0 0 0 0 0 0 0
loop1 0 0 0 0 0 0 0 0 0 0
loop2 0 0 0 0 0 0 0 0 0 0
loop3 0 0 0 0 0 0 0 0 0 0
loop4 0 0 0 0 0 0 0 0 0 0
loop5 0 0 0 0 0 0 0 0 0 0
loop6 0 0 0 0 0 0 0 0 0 0
loop7 0 0 0 0 0 0 0 0 0 0
sr0 74 31 420 110 0 0 0 0 0 0
vda 414443 55553 18904174 1090533 35245086 17395288 369987052 50346547 0 21164
dm-0 13839 0 110712 92343 134397 0 1075160 1425251 0 33
dm-1 50438 0 1589578 373204 6086424 0 48691256 13801110 0 4859
dm-2 25159 0 741386 93574 13641485 0 109131760 58280348 0 6306
disk- ------------reads------------ ------------writes----------- -----IO------
total merged sectors ms total merged sectors ms cur sec
dm-3 226921 0 12979482 374950 3402653 0 26807368 150029045 0 2094
dm-4 848 0 8290 4074 21437012 0 171496064 37658599 0 7910
dm-5 15903 0 373610 50583 1107064 0 8856472 60806220 0 300
dm-6 135554 0 3074754 677070 485621 0 3884928 26750658 0 393
vdb 4921867 7619 968706386 2063218 22670735 108363892 998454992 19180459 0 9238
dm-7 4928923 0 968701410 2144859 127417700 0 998454912 773663155 0 9277

-D 可以以汇总的方式查看到磁盘的各项读写的情况。

[root@XXXXXXXX ~]# vmstat -D
35 disks
2 partitions
10733969 total reads
63203 merged reads
1975190202 read sectors
6964518 milli reading
231628817 writes
125759350 merged writes
2736845900 written sectors
1191942088 milli writing
0 inprogress IO
61574 milli spent IO

-p可以看到每个分区的情况

[root@xxxxxxxxxxxxxx ~]# vmstat -p /dev/vda1
vda1 reads read sectors writes requested writes
879 22098 260 44044