Linux进程（2）

pstree：display a tree of processes

Note：可能需要安装 psmisc

pstree [-p] [-s] [-u] [-a] [pid , user]

-p ：显示进程的 PID

-s ：显示指定 PID 或 USER 的父进程及子进程

-u ：每当进程的uid与其父进程的uid不同时，新的uid就会在进程名后面的括号中显示

-a：显示进程的命令行

ps ：report a snapshot of the current processes

ps 命令查看当前这一刻的进程信息，注意查看的是静态进程信息，要查看随时刷新的动态进程信息(如windows的进程管理器那样，

每秒刷新一次)，使用top或htop命令

这个命令的man文档及其复杂，它同时支持3种类型的选项：GUN/BSD/UNIX，不同类型的选项其展示的信息格式不一样。

有些加了"-"的是 UNIX 风格的选项，不加"-"的是BSD选项，加不加"-"它们的意义是不一样的，例如ps aux 和ps -aux是不同的

其实只需掌握少数几个选项即可，关键的是要了解ps显示出的进程信息中每一列代表什么属性

ps [options]

-p pidlist ：显示指定 pid 列表的基本信息
--no-header
- 常用组合：aux
  u ：以用户为中心组织进程状态信息显示
  a ：与终端相关的进程
  x ：与终端无关的进程
  
  [root@xiao ~]# ps aux
  USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
  
  %CPU ：该进程使用掉的 CPU 资源百分比，百分比的计算方式是"进程占用cpu时间/cpu总时间"
  %MEM ：该进程所占用的物理内存百分比
  VSZ ：使用掉的虚拟内存量 ( KB )
  RSS ：常驻内存集 ( KB )
  TTY：表示属于哪个终端的进程，"?"表示不依赖于终端的进程
  STAT ：该进程目前的状态（中括号内的进程是内核进程）
  R ：running
  S ：interruptable sleep
  D ：uninterruptable sleep
  T ：stopped
  Z ：zombie
  s ：表示该进程是session leader，即进程组的首进程。例如管道左边的进程，
  shell脚本中的shell进程
  + ：前台进程
  l (小L)：表示该进程是一个线程
  N ：低优先级进程
  < ：高优先级进程
  START ：该进程触发启动的时间
  TIME ：该进程实际使用 CPU 运行的时间
  COMMAND：表示进程的命令行。如果是内核线程，则使用方括号"[]"包围
- 常用组合：-eFH ，-ef
  -e ：显示所有进程，与 -A 有相同的效果
  -F ：显示完整格式的进程信息，与 -f 有相同效果
  -H ：以进程层级格式显示进程相关信息
  
  [root@node2 ~]# ps -ef | head
  UID PID PPID C STIME TTY TIME CMD
  
  [root@node2 ~]# ps -eFH
  UID PID PPID C SZ RSS PSR STIME TTY TIME CMD
  
  PSR：运行于哪颗CPU之上
- 常用组合：-eo ， axo
  -eo format
  axo format
  
  -o format ：在 -o 后面指定要显示的进程信息
  %cpu (%CPU)：该进程使用掉的 CPU 资源百分比，百分比的计算方式是"进程占用cpu时间/cpu总时间"
  cputime (TIME)：累积CPU时间, 格式"[DD-]hh:mm:ss"
  psr (PSR)：当前分配给进程的处理器
  %mem (%MEM)：该进程所占用的物理内存百分比
  args (COMMAND)：表示进程的命令行。如果是内核线程，则使用方括号"[]"包围
  start (STARTED)：进程启动的时间
  c (C)：处理器利用率。目前，这是进程生命周期内使用百分比的整数值
  class (CLS)：进程的调度类
  - not reported
  TS SCHED_OTHER
  FF SCHED_FIFO
  RR SCHED_RR
  B SCHED_BATCH
  ISO SCHED_ISO
  IDL SCHED_IDLE
  DLN SCHED_DEADLINE
  ? unknown value
  f (F)：与进程关联的标志
  4 ：标识进程的权限为 root
  1 ：此子进程仅执行 (fock) 而没有实际执行 (exec)
  0 ：此子进程仅执行 (fock) 后执行 (exec)
  s (S)：表示进程当前的状态
  R：当前正在运行(RUNNING)
  S：睡眠(SLEEP)
  D：不可中断
  T：停止(STOP)
  Z：僵尸进程(ZOMBIE)
  pri：优先级；范围：0~139；其中实时进程：40~139；非实时进程：0~39；值越大优先级越高
  ni：nice值，值为-20到19，影响优先级的方式是PRI(new)=PRI(old)-NI，所以NI为负数的时候，越小
  将导致进程优先级越高
  pid (PID)
  ppid (PPID)
  rtprio：表示实时优先级；范围：1~99，值越大优先级越高
  rss (RSS)：常驻内存集大小 ( KB )，任务使用的非交换物理内存
  vsz (VSZ)：使用掉的虚拟内存量 ( KB )
  wchan (WCHAN)：进程处于睡眠状态的内核函数的名称，如果进程正在运行，用"-"表示，如果进程
  是多线程的，而ps不显示线程，用"*"表示
  user (USER)
  gid (GID)
  uid (UID)
  unit (UNIT)：显示一个进程所属的单元(支持systemd)
  tty (TT)
  sz (SZ)：进程的核心映像的物理页面的大小。这包括文本、数据和堆栈空间
  stat (STAT) ：该进程目前的状态（中括号内的进程是内核进程）
  R ：running
  S ：interruptable sleep
  D ：uninterruptable sleep
  T ：stopped
  Z ：zombie
  s ：表示该进程是session leader，即进程组的首进程。例如管道左边的进程，
  shell脚本中的shell进程
  + ：前台进程
  l (小L)：表示该进程是一个线程
  N ：低优先级进程
  < ：高优先级进程
  priority：优先级；范围：-100~39；其中实时进程：-100~-1；非实时进程：0~39；值越小优先级越高
  ni：nice值，值为-20到19，影响优先级的方式是PRI(new)=PRI(old)+NI，所以NI为负数的时候，越小
  将导致进程优先级越高
- 常用选项：-l
  -l (小L)：仅显示当前 shell 相关的进程
  
  [root@xiao ~]# ps -l
  F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD
  4 S 0 21985 21981 0 80 0 - 29143 do_wai pts/1 00:00:00 bash
  0 R 0 22773 21985 0 80 0 - 37235 - pts/1 00:00:00 ps
  
  F ：表示进程旗标 (process flags)，标识进程所拥有的权限，常见号码有：
  4 ：标识进程的权限为 root
  1 ：此子进程仅执行 (fock) 而没有实际执行 (exec)
  0 ：此子进程仅执行 (fock) 后执行 (exec)
  S：表示进程当前的状态
  R：当前正在运行(RUNNING)
  S：睡眠(SLEEP)
  D：不可中断
  T：停止(STOP)
  Z：僵尸进程(ZOMBIE)
  UID：拥有该进程用户的用户ID
  PID：进程号
  PPID：该进程父进程的进程好
  C：该进程使用掉的 CPU 资源百分比，百分比的计算方式是"进程占用cpu时间/cpu总时间"
  PRI ：该进程执行的优先级，值越小，优先级越高，越早被调度类选中运行
  范围为：-40~99 ：其中非实时进程：60~99 ；实时进程：-40~59
  NI：nice 值，值为-20到19，影响优先级的方式是PRI(new)=PRI(old)+NI，所以NI为负数的时候，越小将
  导致进程优先级越高
  ADDR ：kernel function，指该进程在内存的那个部分，如果是 running，一般会显示 " - "
  SZ ：该进程占用的内存空间
  WCHAN ：当前进程是否正在运行，" - " 表示运行
  TTY：表示属于哪个终端的进程
  TIME ：使用 CPU 时间，注意，此进程花费 CPU 运行进程的时间，而不是系统时间
  CMD：表示进程的命令行。如果是内核线程，则使用方括号"[]"包围

ps后grep问题：

在ps后加上grep筛选目标进程时，总会发现grep自身进程也被显示出来

[root@node2 1]# ps aux | grep "crond"

root 77700 0.0 0.1 126276 1020 ? Ss Nov10 0:00 /usr/sbin/crond -n

root 100534 0.0 0.0 112712 960 pts/0 R+ 22:03 0:00 grep --color=auto crond

先解释下为何会如此。管道是bash创建的，bash创建管道后fork两个子进程，然后两子进程各自exec加载ps程序和grep程序，

exec之后这两个子进程就称为ps进程和grep进程，所以ps和grep进程几乎可以认为是同时出现的，尽管ps进程作为管道的首

进程（进程组首进程）它是先出现的，但是在ps出现之前确实两个进程都已经fork完成了。也就是说，管道左右两端的进程是同时

被创建的(不考虑父进程创建进程消耗的那点时间)，但数据传输是有先后顺序的，左边先传，右边后收

要将grep自身进程排除在结果之外，方法有二：

[root@node2 1]# ps aux | grep "crond" | grep -v "grep"

root 77700 0.0 0.1 126276 1020 ? Ss Nov10 0:00 /usr/sbin/crond -n

[root@node2 1]# ps aux | grep "cron[d]"

root 77700 0.0 0.1 126276 1020 ? Ss Nov10 0:00 /usr/sbin/crond -n

pidof ：find the process ID of a running program

pidof [-x] program [program..]

-x ：这导致程序也返回运行命名脚本的shell的进 pid

uptime：Tell how long the system has been running

使用 uptime 命令查看系统的运行时间，uptime 命令会读取 /proc/uptime 文件中的数据

[root@shy ~]# cat /proc/uptime

11420393.23 10802695.23

第一列输出的是，系统启动到现在的时间（以秒为单位），这里简记为num1；

第二列输出的是，系统空闲的时间（以秒为单位）,这里简记为num2

Note：

很多很多人都知道第二个是系统空闲的时间，但是可能你不知道是，在SMP系统里，系统空闲的时间有时会是系统运行时间

的几倍，这是怎么回事呢？

因为系统空闲时间的计算，是把SMP算进去的，就是所你有几个逻辑的CPU（包括超线程）

系统的空闲率(%) = num2/(num1*N) 其中N是SMP系统中的CPU个数

[root@node2 1]# uptime

22:08:07 up 4 days, 9:12, 2 users, load average: 0.00, 0.02, 0.05

当前时间为 22:08:07，启动了 4 天9小时12分钟，当前有2个用户登陆，以及3个平均负载值

所谓负载率(load)，即特定时间长度内，cpu运行队列中的平均进程数(包括线程)，一般平均每分钟每核的进程数小于3都认为正常，

大于5时负载已经非常高。在UNIX系统中，运行队列包括cpu正在执行的进程和等待cpu的进程(即所谓的可运行runable)。

在Linux系统中，还包括不可中断睡眠态(IO等待)的进程。运行队列中每出现一个进程，load就加1，进程每退出运行队列，

Load就减1。如果是多核cpu，则还要除以核数

例如，单核cpu上的负载值为"1.73 0.60 7.98"时，表示：

最近1分钟：1.73表示平均可运行的进程数，这一分钟要一直不断地执行这1.73个进程。0.73个进程等待该核cpu
最近5分钟：平均进程数还不足1，表示该核cpu在过去5分钟空闲了40%的时间
最近15分钟：7.98表示平均可运行的进程数

如果是多核cpu，则还要将结果除以核数。例如4核时，某个最近一分钟的负载值为3.73，则意味着有3.73个进程在运行队列中，
这些进程可被调度至4核中的任何一个核上运行。最近1分钟的负载值为1.6，表示这一分钟内每核cpu都空闲(1-1.6/4)=60%的时间
所以，load的理想值是正好等于CPU的核数，小于核数的时候表示cpu有空闲，超出核数的时候表示有进程在等待cpu，
即系统资源不足

top ：display Linux processes

top [option]

-p pid……：只监视具有指定 pid的进程；可以提供一个逗号分隔的列表，其中包含最多20个 pid
-n number ：显示刷新多少次退出 top
-d secs ：指定刷新时间间隔，默认为 3 秒
-b ：以批处理模式启动top，这对于将 top 的输出发送到其他程序或文件非常有用
-u user ：只显示具有与给定匹配的用户id或用户名的进程

[root@node2 1]# top -b -n 1

top - 22:27:54 up 4 days, 9:32, 2 users, load average: 0.02, 0.04, 0.05

Tasks: 107 total, 1 running, 106 sleeping, 0 stopped, 0 zombie

%Cpu(s): 5.9 us, 5.9 sy, 0.0 ni, 88.2 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

KiB Mem : 999696 total, 422580 free, 104028 used, 473088 buff/cache

KiB Swap: 2097148 total, 2044072 free, 53076 used. 705648 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

100569 root 20 0 157672 2068 1508 R 6.2 0.2 0:00.01 top

1 root 20 0 125352 2756 1576 S 0.0 0.3 0:26.37 systemd

us ：用户进程占用 CPU 时间（用户空间）

sy ：内核进程占用 CPU 时间（内核空间）

ni ：low priority user mode (nice)(用户空间中低优先级进程的cpu占用百分比)

id ：CPU 内核空闲时间

wa ：等待 I/O 完成的时间

hi ：用于服务硬件中断的时间；servicing IRQs(不可中断睡眠，hard interruptible)

si ：用于服务软件中断的时间；servicing soft IRQs(可中断睡眠，soft interruptible)

st ：steal (time given to other DomU instances)(被偷走的cpu时间，一般被虚拟化软件偷走)

PR ：该进程执行的优先级，值越小，优先级越高，越早被调度类选中运行

和 ps axo priority,rtprio 和 ps -l 相同

NI：nice 值，值为-20到19，影响优先级的方式是PRI(new)=PRI(old)+NI，所以NI为负数的时候，越小将

导致进程优先级越高

VIRT ：虚拟内存集

RES ：常驻内存集

SHR ：共享内存集

S ：进程状态

R ：running

S ：interruptable sleep

D ：uninterruptable sleep

T ：stopped

Z ：zombie

s ：表示该进程是session leader，即进程组的首进程。例如管道左边的进程，

shell脚本中的shell进程

+ ：前台进程

l (小L)：表示该进程是一个线程

N ：低优先级进程

< ：高优先级进程

TIME+ ：进程占用的cpu的累积时间(若开启了时间累积模式，则此处显示的是累积时间)

top 的内部命令：
P ：以占据的 CPU 百分比排序
M ：以占据的内存百分比排序
N：以PID 来排序
T ：以累积占据 CPU 时长排序
r ：给予某个 PID 重新定制一个 nice 值
l（小 L）：隐藏或显示 top 第一行的信息，系统运行时间，几个用户登录，CPU 1 ，5，15 分钟的使用情况
t ：改变 task 及 CPU 信息显示格式
1 ：CPU 分别显示，将多颗cpu 或多核 cup 分别显示
m ：改变 memory 信息显示格式
q ：退出 top
d | s ：修改刷新时间间隔
k ：终止指定的进程
c：表示是否要展开进程的命令行
x,y：x高亮排序的列，y表示高亮running进程
u：仅显示指定用户的进程
n：设置要显示最大的进程数量
？| h
E ：切换内存容量的单位
H：表示是否要显示线程，默认不显示
S：表示显示的cpu时间是否是累积模式，cpu累积模式下已死去的子进程cpu时间会累积到父进程中

htop ：interactive process viewer

需要安装，EPEL 中有此命令的程序

htop [-dut]

-p pid……：只监视具有指定 pid的进程；可以提供一个逗号分隔的列表，其中包含最多20个 pid
-t ：以树状图的形式显示进程
-u USER ：仅显示属于给定用户的进程
-d DELAY：指定刷新时间间隔
htop 内部命令：
Space ：标记或取消标记进程。可以在多个进程上操作的命令，比如"kill"
U：取消所有进程的标记(删除所有用空格键添加的标记)
P ：以占据的 CPU 百分比排序
M ：以占据的内存百分比排序
T ：以累积占据 CPU 时长排序
PgUp, PgDn：向上或向下滚动一个窗口的进程列表
Home：滚动到流程列表的顶部并选择第一个流程
end：滚动到流程列表的底部并选择最后一个流程
Numbers ：输入 PID，选中的高亮显示将被移动到它
Ctrl + L ：刷新:重新绘制屏幕和重新计算值
p ：显示进程的完整路径
s ：跟踪进程系统调用:如果安装了strace，按下此键将把它附加到当前选择的进程，显示进程发出的系统
调用的实时更新
l（下 L）：显示进程打开的文件:如果安装了lsof，按下此键将显示进程打开的文件描述符列表

F3, /：递增地搜索所有显示进程的命令行
F4, ：增量进程过滤：在进程命令行中键入部分内容，只显示名称匹配的进程
F5, t：树形视图:通过父母关系组织过程，并将它们之间的关系布置成树形；选择排序视图将退出树视图
F6：在已排序视图中，选择用于排序的字段，也可以通过 '<' 和 '>' 进行访问。当前排序字段由标题中的高亮
显示指示。在树视图中，展开或折叠当前子树。树节点中的"+"指示符表示它已折叠
F7, ]：增加所选进程的优先级(减少 'nice'值)。这只能由超级用户来完成
F8, [：降低所选进程的优先级(增加"nice"值)
F9, k："kill"进程:将在菜单中选择的信号发送给一个或一组进程。如果进程被标记，则向所有标记的进程
发送信号。如果没有标记，则发送到当前选择的进程
F10, q：退出 htop

I：逆向排序
+, - ：在树视图模式下，展开或折叠子树。当一个子树被折叠时，一个"+"符号显示在进程名的左边
a ：设置CPU关联性:标记一个进程可以使用哪个CPU
u：只显示指定用户拥有的进程
F："跟随"进程:如果排序顺序导致当前选择的进程在列表中移动，则使选择栏跟随它
K：隐藏内核线程:防止属于内核的线程显示在进程列表中
H：隐藏用户线程
Arrows：上下选择进程行
F1 ，h ，？：显示帮助信息

分析系统负载(system load average)：

根据前文uptime中对系统负载(system load)的描述，分析一下这个top的结果

上图中，系统负载非常之高，最近一分钟的负载量高达383.19，这表示这一分钟有383.19个进程正在运行或等待调度，如果是单核

CPU，表示这一分钟要毫不停留地执行这么多进程，如果是8核CPU，表示这一分钟内平均每核心CPU要执行大概50个进程

从load average上看，确实是非常繁忙的场景。但是看CPU的idle值为98.8，说明CPU非常闲。为什么系统负载如此高，

CPU却如此闲？

前面解释system load average的时候，已经说明过可运行的(就绪态，即就绪队列的长度)、正在运行的(运行态)和不可中断睡眠

(如IO等待)的进程任务都会计算到负载中。现在负载高、CPU空闲，说明当前正在执行的任务基本不消耗CPU资源，大量的负载

进程都在IO等待中

可以从ps的进程状态中获取哪些进程是正在运行或运行队列中的(状态为R)，哪些进程是在不可中断睡眠中的(状态为D)

[root@node2 ~]# ps -eo stat,pid,ppid,comm --no-header |grep -E "^(D|R)"

R 9 2 rcu_sched

Rsl 662 1 vmtoolsd

R+ 101157 100877 ps

vmstat：Report virtual memory statistics

Note：vmstat 是从 /proc/vmstat 文件中提取的信息

vmstat [options] [delay [count]]

-s ：显示各种事件计数器和内存统计信息的表

-f：统计自开机起fork的次数。包括fork、clone、vfork的次数。但不包括exec次数

-d：显示磁盘统计信息

-S character：1000 (k), 1024 (K), 1000000 (m), or 1048576 (M) bytes

delay：刷新时间间隔，若不指定，则只统计一次信息就退出vmstat

count：总共要统计的次数

[root@node2 ~]# vmstat

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----

r b swpd free buff cache si so bi bo in cs us sy id wa st

2 0 53076 399964 680 493560 0 0 26 8 101 46 0 0 100 0 0

procs：

r: 等待队列中的进程数

b: 不可中断睡眠的进程数

memory：

swpd: 虚拟内存使用总量

free: 空闲内存量

buff: buffer占用的内存量(buffer用于缓冲)

cache: cache占用的内存量(cache用于缓存)

swap：

si:从内存加载到swap分区的数据流量，单位为"kb/s"

so: 从swap分区写到内存的数据流量，单位为"kb/s"

io：

bi: 从块设备读取到数据的速率，单位为blocks/s

bo: 写数据到块设备的速率，单位为blocks/s

System：

in: 每秒中断数，包括时钟中断数量

cs: 每秒上下文切换次数

CPU：统计的是cpu时间百分比，具体信息和top的cpu统计列一样

us ：用户进程占用 CPU 时间（用户空间）

sy ：内核进程占用 CPU 时间（内核空间）

id ：CPU 内核空闲时间

wa ：等待 I/O 完成的时间

st ：steal (time given to other DomU instances)(被偷走的cpu时间，一般被虚拟化软件偷走)

[root@node2 ~]# vmstat -d

disk- ------------reads------------ ------------writes----------- -----IO------

total merged sectors ms total merged sectors ms cur sec

sda 36566 2620 4430686 764940 66105 41780 6092197 534416 0 505

sr0 79225 0 15665252 234960 0 0 0 0 0 165

dm-0 33979 0 4383391 752477 73328 0 5807531 705149 0 482

dm-1 3075 0 28304 93538 34171 0 273368 5601228 0 19

dm-2 110 0 2419 317 337 0 6822 8136 0 4

reads ：

total : 成功读取的总大小

merged : 分组读取的次数（即一次 I/O ）

sectors : 成功读取的扇区数

ms : 读取消耗的时间

Writes

total : 成功写入磁盘的总大小

merged : 分组写入磁盘的次数（即一次 I/O ）

sectors : 成功写入扇区的数量

ms : 写入磁盘消耗的时间

IO：

cur：正在进行的 I/O

sec：I/O 花费的秒数

iostat：Report Central Processing Unit (CPU) statistics and input/output statistics for devices and partitions.

Note：可能需要安装 sysstat

iostat主要统计磁盘或分区的整体使用情况。也可以输出cpu信息，甚至是NFS网络文件系统的信息。同vmstat/sar一样，

第一次统计的都是自系统开机起的平均统计信息

iostat [ -c ] [ -d ] [ -n -h ][ -k | -m ] [ -p [device][,...] ] [ interval [ count ] ]

-c：统计cpu信息

-d：统计磁盘信息

-n：统计NFS文件系统信息

-h：使NFS统计信息更人类可读化

-k：指定以kb/s为单位显示

-m：指定以mb/s为单位显示

-p：指定要统计的设备名称

-y：指定不显示第一次统计信息，即不显示自开机起的统计信息。

interval：刷新时间间隔

count：总统计次数

[root@node2 ~]# iostat

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle

0.14 0.00 0.25 0.08 0.00 99.53

Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn

sda 0.26 5.67 7.77 2215231 3039144

scd0 0.20 20.04 0.00 7832626 0

dm-0 0.27 5.61 7.41 2191583 2896811

dm-1 0.10 0.04 0.35 14152 136684

dm-2 0.00 0.00 0.01 1209 3411

avg-cpu：

%user：CPU处在用户模式下的时间百分比

%nice：显示在用户级别，用于nice操作，所占用 CPU 总时间的百分比

%system：CPU处在系统模式下的时间百分比

%iowait：CPU等待输入输出完成时间的百分比

%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比

%idle：CPU空闲时间百分比

tps：每秒transfer速率(transfers per second),一次对物理设备的IO请求为一个transfer，但多个逻辑请求可能只

组成一个transfer

Blk_read/s：每秒读取的block数量

Blk_wrtn/s：每秒写入的block总数

Blk_read：读取的总block数量

Blk_wrtn：写入的总block数量

sar：Collect, report, or save system activity information

Note：可能需要安装 sysstat

sar是一个非常强大的性能分析工具，它可以获取系统的cpu/等待队列/磁盘IO/内存/网络等性能指标

功能多的必然结果是选项多，应用复杂，但只要知道一些常用的选项足以

sar [options] [-o filename] [delay [count] ]

-A：显示系统所有资源运行状况

-B：查看内存分页信息

-b：显示磁盘IO和tranfer速率信息，和iostat的信息一样，是总体IO统计信息

-d：显示磁盘在刷新时间间隔内的活跃情况，可以指定一个或多个设备，和-b不同的是，它显示的是单设备的IO、transfer

信息；建议配合-p使用显示友好的设备名，否则默认显示带主次设备号的设备名

-P：显示指定的某颗或某几颗cpu的使用情况。指定方式为，-P 0,1,2,3或ALL

-u：显示每颗cpu整体平均使用情况。-u和-P的区别通过下面的示例很容易区分

-r：显示内存在刷新时间间隔内的使用情况

-n：显示网络运行状态。后可接DEV/NFS/NFSD/ALL等多种参数

：DEV表示显示网路接口信息，NFS和NFSD分别表示显示NFS客户端和服务端的流量信息，ALL表示显示所有信息

-q：显示等待队列大小

-o filename：将结果存入到文件中

delay：状态刷新时间间隔

count：总共刷新几次

统计网络流量：

/proc/net/dev 文件保存了网络流量的数据信息

第一种方法是查看 /proc/net/dev：

[root@node2 ~]# cat /proc/net/dev

Inter-| Receive | Transmit

face |bytes packets errs drop fifo frame compressed multicast|bytes packets errs drop fifo colls carrier compressed

ens37: 296178912 425890 0 6 0 0 0 0 36129103 178334 0 0 0 0 0 0

lo: 116280 1396 0 0 0 0 0 0 116280 1396 0 0 0 0 0 0

ens33: 2200550 27661 0 6 0 0 0 0 0 0 0 0 0 0 0 0

关注列：receive和transmit分别表示收包和发包，关注每个网卡的bytes即可获得网卡的情况。写一个脚本计算每秒的差值即为网络流量

第二种方法是使用 sar -n DEV ：

[root@node2 ~]# sar -n DEV

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

02:50:02 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s

03:00:01 PM ens37 0.38 0.11 0.03 0.02 0.00 0.00 0.00

03:00:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00

03:00:01 PM ens33 0.02 0.00 0.00 0.00 0.00 0.00 0.00

Average: ens37 0.38 0.11 0.03 0.02 0.00 0.00 0.00

Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: ens33 0.02 0.00 0.00 0.00 0.00 0.00 0.00

rxpck/s：每秒收到的包数量

txpck/s：每秒发送的包数量

rxkB/s：每秒收到的数据，单位为kb

txkB/s：每秒发送的数据，单位为kb

rxcmp/s：每秒收到的压缩后的包数量

txcmp/s：每秒发送的压缩后的包数量

rxmcst/s：每秒收到的多播包数量

内存和交换空间监控：

可以直接查看 /proc/meminfo 文件，获取内存和交换空间的数据

[root@node2 ~]# sar -r 3 2

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:22:36 PM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty

03:22:39 PM 393000 606696 60.69 680 421684 285648 9.22 293328 156936 0

03:22:42 PM 393000 606696 60.69 680 421684 285648 9.22 293328 156936 0

Average: 393000 606696 60.69 680 421684 285648 9.22 293328 156936 0

kbmemfree：这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间

kbmemused：这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间

%memused：这个值是kbmemused和内存总量(不包括swap)的一个百分比

kbbuffers和kbcached：这两个值就是free命令中的buffer和cache

kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)

%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比

kbdirty：表示内存中脏页的大小，即内存中还有多少应该刷新到磁盘的数据

内存分页监控：

[root@node2 ~]# sar -B 3 2

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:26:25 PM pgpgin/s pgpgout/s fault/s majflt/s pgfree/s pgscank/s pgscand/s pgsteal/s %vmeff

03:26:28 PM 0.00 0.00 23.83 0.00 10.74 0.00 0.00 0.00 0.00

03:26:31 PM 0.00 0.00 9.06 0.00 8.72 0.00 0.00 0.00 0.00

Average: 0.00 0.00 16.44 0.00 9.73 0.00 0.00 0.00 0.00

pgpgin/s：表示每秒从磁盘或SWAP置换到内存的字节数(KB)

pgpgout/s：表示每秒从内存置换到磁盘或SWAP的字节数(KB)

fault/s：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)

majflt/s：每秒钟产生的主缺页数

pgfree/s：每秒被放入空闲队列中的页个数

pgscank/s：每秒被kswapd扫描的页个数

pgscand/s：每秒直接被扫描的页个数

pgsteal/s：每秒钟从cache中被清除来满足内存需要的页个数

%vmeff：每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比

进程队列长度和平均负载状态监控：

[root@node2 ~]# sar -q 3 2

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:27:53 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked

03:27:56 PM 2 126 0.00 0.01 0.05 0

03:27:59 PM 2 126 0.00 0.01 0.05 0

Average: 2 126 0.00 0.01 0.05 0

runq-sz：等待队列的长度，不包括正在运行的进程

plist-sz：任务列表中的进程数量，即总任务数

ldavg-N：过去1分钟、5分钟、15分钟内系统的平均哎

blocked：当前因为IO等待被阻塞的任务数量

I/O和传送速率监控：

[root@node2 ~]# sar -b 3 2

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:28:51 PM tps rtps wtps bread/s bwrtn/s

03:28:54 PM 0.00 0.00 0.00 0.00 0.00

03:28:57 PM 0.00 0.00 0.00 0.00 0.00

Average: 0.00 0.00 0.00 0.00 0.00

tps：每秒钟物理设备的 I/O 传输总量

rtps：每秒钟从物理设备读入的数据总量

wtps：每秒钟向物理设备写入的数据总量

bread/s：每秒钟从物理设备读入的数据量，单位为块/s

bwrtn/s：每秒钟向物理设备写入的数据量，单位为块/s

系统交换活动信息监控：

[root@node2 ~]# sar -W 3 2

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:29:54 PM pswpin/s pswpout/s

03:29:57 PM 0.00 0.00

03:30:00 PM 0.00 0.00

Average: 0.00 0.00

pswpin/s：每秒系统换入的交换页面（swap page）数量

pswpout/s：每秒系统换出的交换页面（swap page）数量

设备使用情况监控：

[root@node2 ~]# sar -d 3 1 -p

Linux 3.10.0-693.el7.x86_64 (node2.song.com) 11/12/2019 _x86_64_ (1 CPU)

03:33:58 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

03:34:01 PM sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

03:34:01 PM sr0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

03:34:01 PM centos-root 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

03:34:01 PM centos-swap 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

03:34:01 PM centos-home 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

Average: sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: sr0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: centos-root 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: centos-swap 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Average: centos-home 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

tps：transfer per second，每秒的transfer速率，一次物理IO请求算一次transfer，但多次逻辑IO请求可能组合起来才算

一次transfer

rd_sec/s：每秒读取的扇区数，扇区大小为512字节

wr_sec/s：每秒写入的扇区数

avgrq-sz：请求写入设备的平均大小，单位为扇区。(The average size (in sectors) of the requests that were issued to

the device)

avgqu-sz：请求写入设备的平均队列长度。(The average queue length of the requests that were issued to the device.)

await：写入设备的IO请求的平均(消耗)时间，单位微秒(The average time for I/O requests issued to the device

to be served.)

svctm：不可信的列，该列未来将被移除，所以不用管

%util：最重要的一列，显示的是设备的带宽情况。该列若接近100%，说明磁盘速率饱和了

dstat：用于生成系统资源统计的工具

Note：可能需要安装 dstat

dstat [-afv] [options..] [delay [count]]

-c ：启用cpu统计信息(系统、用户、空闲、等待、硬件中断、软件中断)

-C 0，3，total

-d ：启用磁盘状态(读、写)

-D ：total，sda1

-g ：启用页面状态(page in，page out)

-i ：启用中断数据

-I 5，10（大 i ）

-l （小 L）：启用负载平均状态

-m ：启用内存统计(使用、缓冲区、缓存、空闲)

-n ：启用网络统计信息(接收、发送)

-N eth1，total

-p ：启用进程状态(可运行、不可中断、新建)

-r ：启用I/O请求统计(读、写请求)

-s ：启用交换状态(已使用，空闲)

-S swap1，total

-y ：启用系统状态(中断、上下文切换)

--aio ：启用aio stats(异步I/O)

--fs ：启用文件系统统计信息(打开文件、inode)

--ipc ：启用ipc统计信息(消息队列、信号量、共享内存)

--lock ：启用文件锁定状态(posix、flock、read、write)

--tcp ， --udp ， --unix ， --raw ， --socket

--top-io ：显示最占用 io 的进程

--top-cpu ：显示最占用 cpu 的进程

--top-mem ：显示最占用 memory 的进程

--top-lantency ：显示延迟最大的进程

glances ：一个跨平台的基于 curses 的系统监控工具

Note：可能需要安装 glances

glances [OPTIONS]

-C CONF_FILE, --config CONF_FILE：指定配置文件

-b：以Byte为单位显示网上数据速率

-d ：启用调试模式 ( 日志文件为 /tmp/glances.log )

-t TIME ：设置刷新的时间（默认为 3 秒）

--hide-kernel-threads ：在进程列表中隐藏内核线程

--tree ：进程以数的形式显示

--fs-free-space：显示系统空闲空间而不是已使用空间

--process-short-name：强制进程使用短名称

-f PROCESS_FILTER, --process-filter PROCESS_FILTER：设置进程模式匹配（正则表达式）

-q, --quiet

--enable-history：启动 history 模式（需要 python-matplotlib 库）

服务器端

-s ：在服务器模式下运行 glances

-B BIND_ADDRESS ：将服务器绑定到给定的 IPv4/IPv6 地址或主机名

--password ：定义 client/server 密码

-p PORT, --port PORT ：定义 client/server TCP 端口 [默认为: 61208]

客户端

-c IPADDR：客户端模式运行 glances

--password ：输入 client/server 密码

-p PORT, --port PORT ：指定 client/server TCP 端口 [默认为: 61208]

web端

-w, --webserver：run Glances in web server mode (依赖 python2-bottle)

-B BIND_ADDRESS ：将服务器绑定到给定的 IPv4/IPv6 地址或主机名

--password ：输入 client/server 密码

-p PORT, --port PORT ：指定 client/server TCP 端口 [默认为: 61208]

glances 内部操作命令：

ENTER: Edit the process filter pattern

c：根据CPU使用率对进程进行排序

i：按照进程的 I/O 速率排序

m：依据进程对内存的使用率排序

p：按照进程名称排序

u ：按照 USER 排序进程

t：按进程使用CPU时间排序 (TIME+)

a：进程列表自动排序

1：在全局CPU和每个CPU状态之间切换

g：生成当前历史记录的图表

b：网络I/O在bit/s或Byte/s之间进行切换

d：显示或隐藏磁盘 I/O 状态

f：显示或隐藏文件系统状态

F：在使用的文件系统和空闲空间之间进行切换

l(小L)：显示或隐藏日志信息

n：显示或隐藏网络状态

r：重置历史

U：查看累计网络I/O

w：删除已完成的警告日志消息

x：删除已完成的警告和关键日志消息

0：Task的cpu使用量将除以cpu的总数

/：Switch between short name/command line (processes name)

pmap：report memory map of a process

pmap [options] pid [...]

-x：显示详细格式的信息

另一种查看方式：cat /proc/PID/maps