Linux九阴真经之无影剑残卷7（进程管理）

进程概念

内核的功用：进程管理、文件系统、网络功能、内存管理、驱动程序、安全功能等
Process: 运行中的程序的一个副本，是被载入内存的一个指令集合
进程ID（Process ID，PID）号码被用来标记各个进程
UID、GID、和SELinux语境决定对文件系统的存取和访问权限，
通常从执行进程的用户来继承
存在生命周期
task struct：Linux内核存储进程信息的数据结构格式
task list：多个任务的的task struct组成的链表
进程创建：
init：第一个进程
父子关系
进程：都由其父进程创建，CoW
fork(), clone()

进程的基本状态和转换

进程的基本状态

创建状态：进程在创建时需要申请一个空白PCB(process control block进程控制块)，向其中填写控制和管理进程的信息，完成资源分配。如果创建工作无法完成，比如资源无法满足，就无法被调度运行，把此时进程所处状态称为创建状态
就绪状态：进程已准备好，已分配到所需资源，只要分配到CPU就能够立即运行
执行状态：进程处于就绪状态被调度后，进程进入执行状态
阻塞状态：正在执行的进程由于某些事件（I/O请求，申请缓存区失败）而暂时无法运行，进程受到阻塞。在满足请求时进入就绪状态等待系统调用
终止状态：进程结束，或出现错误，或被系统终止，进入终止状态。无法再执行

状态之间转换六种情况

运行——>就绪：1，主要是进程占用CPU的时间过长，而系统分配给该进程占用CPU的时间是有限的；2，在采用抢先式优先级调度算法的系统中,当有更高优先级的进程要运行时，该进程就被迫让出CPU，该进程便由执行状态转变为就绪状态。
就绪——>运行：运行的进程的时间片用完，调度就转到就绪队列中选择合适的进程分配CPU
运行——>阻塞：正在执行的进程因发生某等待事件而无法执行，则进程由执行状态变为阻塞状态，如发生了I/O请求
阻塞——>就绪:进程所等待的事件已经发生，就进入就绪队列
以下两种状态是不可能发生的：
阻塞——>运行：即使给阻塞进程分配CPU，也无法执行，操作系统在进行调度时不会从阻塞队列进行挑选，而是从就绪队列中选取
就绪——>阻塞：就绪态根本就没有执行，谈不上进入阻塞态

进程优先级

进程优先级：
0-139（CentOS4,5）
各有140个运行队列和过期队列
0-98，99（CentOS6）
实时优先级: 99-0 值最大优先级最高
nice值：-20到19，对应系统优先级100-139或99
Big O：时间复杂度，用时和规模的关系
O(1), O(logn), O(n)线性, O(n^2)抛物线, O(2^n)系统优先级：数字越小，优先级越高

进程相关概念

进程内存：
Page Frame: 页框，用存储页面数据，存储Page 4k
LRU：Least Recently Used 近期最少使用算法,释放内存
物理地址空间和线性地址空间
MMU：Memory Management Unit负责转换线性和物理地址
TLB:Translation Lookaside Buffer 翻译后备缓冲器,用于保存虚拟地址和物理地址映射关系的缓存
IPC: Inter Process Communication
同一主机: signal:信号
shm: shared memory
semaphore:信号量，一种计数器
不同主机：socket: IP和端口号
RPC: remote procedure call
MQ：消息队列，Kafka，ActiveMQ

LRU算法

LUR算法是缓存数据的基本算法，为近期最少使用算法，释放内存

进程状态

Linux内核：抢占式多任务
进程类型：
守护进程: daemon,在系统引导过程中启动的进程，和终端无关进程
前台进程：跟终端相关，通过终端启动的进程
注意：两者可相互转化
进程状态：
运行态：running
就绪态：ready
睡眠态
可中断：interruptable
不可中断：uninterruptable
停止态：stopped,暂停于内存，但不会被调度，除非手动启动
僵死态：zombie，结束进程，父进程结束前，子进程不关闭

系统管理工具

进程的分类：
CPU-Bound：CPU密集型，非交互
IO-Bound：IO密集型，交互
Linux系统状态的查看及管理工具：pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup
pstree命令：
pstree - display a tree of processes
ps: process state
ps - report a snapshot of the current processes
Linux系统各进程的相关信息均保存在/proc/PID目录下的各文件中

查看进程进程ps

ps [OPTION]...
支持三种选项：
UNIX选项如-A -e
BSD选项如a
GNU选项如--help
•选项：默认显示当前终端中的进程
•a 选项包括所有终端中的进程
•x 选项包括不链接终端的进程
•u 选项显示进程所有者的信息
•f 选项显示进程树,相当于 --forest
•k|--sort 属性对属性排序,属性前加- 表示倒序

ps xo pid,ppid,cmd,%mem,%cpu k -%mem 以内存排序查看属性信息（centos7.4）将-%mem前面的“-”取消，表示正向排序

•o 属性… 选项显示定制的信息 pid、cmd、%cpu、%mem
•L 显示支持的属性列表

常用组合

1：ps ax

2：ps axu

3：ps axuf

4：ps xo o后面跟属性信息，不可以放在X前面。

5：ps xo pid,cmd,%cpu,tty,%men 按照进程编号，cpu和内存排序

6：ps xo pid,cmd,%cpu,tty,%men k %cpu 按照cup利用率排序

ps常见选项（unix风格）
-C cmdlist 指定命令，多个命令用，分隔

ps -c f1.sh -c f2.sh (可同时查看多个脚本进程)

ps -c f1.sh -c f2.sh o pid,cmd,%cpu,%mum (同时查看2个脚本的属性信息)
-L 显示线程
-e: 显示所有进程，相当于-A
-f: 显示完整格式程序信息
-F: 显示更完整格式的进程信息
-H: 以进程层级格式显示进程相关信息
-u userlist 指定有效的用户ID或名称
-U userlist 指定真正的用户ID或名称
-g gid或groupname 指定有效的gid或组名称
-G gid或groupname 指定真正的gid或组名称
-p pid 显示指pid的进程
--ppid pid 显示属于pid的子进程

常见组合

ps -eF

PS 优先级

    ni: nice值
pri: priority 优先级
psr: processor CPU编号
rtprio: 实时优先级
示例：
   ps axo pid,cmd,psr,ni,pri,rtprio
   常用组合：
   aux
   -ef
   -eFH
   -eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,comm
   axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm

进程优先级

进程优先级调整：
静态优先级：100-139
进程默认启动时的nice值为0，优先级为120
只有根用户才能降低nice值（提高优先性）
nice命令：
nice [OPTION] [COMMAND [ARG]...]

例：以-5的优先级运行某个程序（-20到19之间，值越小，优先级越高）

[root@laobai ~#nice -n -5 sleep 18

renice命令：
renice [-n] priority pid...

例：调整进程优先级为-13，值（-20到19之间）越大，优先级越高

[root@laobai ~#renice -n -13 3978
3978: old priority 0, new priority -13

查看：
ps axo pid,comm,ni

ps示例

自定义格式显示文件系统组,ni值开始时间和进程的时间：
ps -p 1234 -o pid,ppid,fgroup,ni,lstart,etime

使用其PID查找进程名称：
ps -p 1244 -o comm=

根据进程名称查看进程编号

ps–C +cmd –o pid=
要以其名称选择特定进程，显示其所有子进程
ps -C sshd,bash

[root@laobai ~#ps -C bash,sshd
   PID TTY          TIME CMD
  1868 ?        00:00:00 sshd
  2723 tty1     00:00:00 bash
  3990 tty3     00:00:00 bash
  8673 ?        00:00:01 sshd
  8675 pts/0    00:00:00 bash

查找指定进程名所有的所属PID，在编写需要从std输出或文件读取PID的脚本时这个参数很有用
       ps -C httpd,sshd -o pid=
检查一个进程的执行时间
       ps -eo comm,etime,user | grep nginx

例：检查httpd这个服务启动了多长时间

[root@laobai ~#ps -en comm,etime,user | grep httpd
  9622 ?        00:00:00 httpd
  9625 ?        00:00:00 httpd
  9626 ?        00:00:00 httpd
  9627 ?        00:00:00 httpd
  9628 ?        00:00:00 httpd
  9629 ?        00:00:00 httpd
  9630 ?        00:00:00 httpd
  9631 ?        00:00:00 httpd
  9632 ?        00:00:00 httpd

查找占用最多内存和CPU的进程：

ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head

ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head

显示安全信息：
ps -eM
ps --context
使用以下命令以用户定义的格式显示安全信息。

ps -eo euser,ruser,suser,fuser,f,comm,label

使用watch实用程序执行重复的输出以实现对就程进行实时的监视，如下面的命令显示每秒钟的监视：

watch -n 1 'ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head'

搜索进程

最灵活：ps 选项 | 其它命令
按预定义的模式：pgrep
pgrep [options] pattern 可以和正则表达式组合

例：查找 vi 进程的详细信息 pgrep -a “vi.*” (centos7)

[root@centos7 ~]#
[root@centos7 ~]#pgrep "vi.*"
566
855
2735
[root@centos7 ~]#pgrep -a "vi.*"
566 /usr/bin/VGAuthService -s
855 /usr/sbin/libvirtd
2735 vi hah.sh
[root@centos7 ~]#pgrep -a "^vi.*"
2735 vi hah.sh
[root@centos7 ~]#

-u uid: effective user，生效者

-U uid: real user，真正发起运行命令者

-t terminal: 与指定终端相关的进程

-l: 显示进程名

-a: 显示完整格式的进程名

-P pid: 显示指定进程的子进程
按确切的程序名称：/sbin/pidof
pidof bash

例：pidof vim

常用组合

pgrep -at pts/1

pgrep -lt pts/1

系统工具
uptime
显示当前时间，系统已启动的时间、当前上线人数，系统平均负载（1、5、10分钟的平均负载，一般不会超过1）

红色方框内的值越小，证明CPU性能越好

系统平均负载:
指在特定时间间隔内运行队列中的平均进程数

通常每个CPU内核的当前活动进程数不大于3，那么系统的性能良好。如果每个CPU内核的任务数大于5，那么此主机的性能有严重问题
如果linux主机是1个双核CPU，当Load Average 为6的时候说明机器已经被充分使用

进程管理工具

top：有许多内置命令，相当于windows的任务管理器
排序：
P：以占据的CPU百分比,%CPU

M：占据内存百分比,%MEM

T：累积占据CPU时长,TIME+

首部信息显示：
uptime信息：l命令

tasks及cpu信息：t命令

cpu分别显示：1 (数字)

memory信息：m命令

退出命令：q

修改刷新时间间隔：s

终止指定进程：k + 进程编号 +15

保存文件：W

保存至家目录下的 .tprc 文件

栏位信息简介

us：用户空间

sy：内核空间

ni：调整nice时间

id：空闲

wa：等待IO时间

hi：硬中断

si：软中断（模式切换）

st：虚拟机偷走的时间

内存空间

内存空间使用状态：
free [OPTION]

-b 以字节为单位

-m 以MB为单位

-g 以GB为单位

-h 易读格式

free -h
-o 不显示-/+buffers/cache行

-t 显示RAM + swap的总和

-s n 刷新间隔为n秒

-c n 刷新n次后即退

内存工具

vmstat命令：虚拟内存信息

vmstat 1 ：查看虚拟内存详细使用信息（动态观察）

vmstat 2 ：隔2秒读取一次虚拟内存信息

vmstat 2 5 ：隔两秒读取5次虚拟内存信息后关闭

procs:
r：可运行（正运行或等待运行）进程的个数，和核心数有关

b：处于不可中断睡眠态的进程个数(被阻塞的队列的长度)

memory：
swpd: 交换内存的使用总量

free：空闲物理内存总量

buffer：用于buffer的内存总量

cache：用于cache的内存总量

swap:
si：从磁盘交换进内存的数据速率(kb/s)

so：从内存交换至磁盘的数据速率(kb/s)

io：
bi：从块设备读入数据到系统的速率(kb/s)

bo: 保存数据至块设备的速率

system：
in: interrupts 中断速率，包括时钟

cs: context switch 进程切换速率

cpu：
us:Time spent running non-kernel code
sy: Time spent running kernel code
id: Time spent idle. Linux 2.5.41前,包括IO-wait time.
wa: Time spent waiting for IO. 2.5.41前，包括in idle.
st: Time stolen from a virtual machine. 2.6.11前, unknown.
选项：
-s: 显示内存的统计数据

iostat:统计CPU和设备IO信息
示例：iostat 1 10

pmap命令：进程对应的内存映射

pmap [options] pid [...]
-x: 显示详细格式的信息

pmap -x 1
示例：pmap 1
另外一种实现：

直接查看进程的状态
cat /proc/pid/maps

系统监控工具

可查看对方的设备信息

服务器模式：

glances -s -B IPADDR
IPADDR: 指明监听的本机哪个地址

[root@centos7 yum.repos.d]#glances -s -B 172.20.109.234

客户端模式：

glances -c IPADDR
IPADDR：要连入的服务器端地址

glances命令：EPEL源，

glances [-bdehmnrsvyz1] [-B bind] [-c server] [-C conffile] [-p port] [-P password] [--password] [-t refresh] [-f file] [-o output]

内建命令：
a Sort processes automatically l Show/hide logs
c Sort processes by CPU% b Bytes or bits for network I/O
m Sort processes by MEM% w Delete warning logs
p Sort processes by name x Delete warning and critical logs
i Sort processes by I/O rate 1 Global CPU or per-CPU stats
d Show/hide disk I/O stats h Show/hide this help screen
f Show/hide file system stats t View network I/O as combination
n Show/hide network stats u View cumulative network I/O
s Show/hide sensors stats q Quit (Esc and Ctrl-C also work)
y Show/hide hddtemp stats

常用选项：
-b: 以Byte为单位显示网卡数据速率
-d: 关闭磁盘I/O模块
-f /path/to/somefile: 设定输入文件位置
-o {HTML|CSV}：输出格式
-m: 禁用mount模块
-n: 禁用网络模块
-t #: 延迟时间间隔
-1：每个CPU的相关数据单独显示

系统监控工具

dstat命令：系统资源统计,代替vmstat,iostat

dstat [-afv] [options..] [delay [count]]

-c: 显示cpu相关信息

-C #,#,...,total

-d: 显示disk相关信息

-D total,sda,sdb,...

-g：显示page相关统计数据

-m: 显示memory相关统计数据

-n: 显示network相关统计数据

-p: 显示process相关统计数据

-r: 显示io请求相关的统计数据

-s: 显示swapped相关的统计数据

常用命令

dstat - -top-cpu 显示系统CPU使用最高的进程

dstat - -top-io 显示最占用IO的进程

dstat - -top-mem 显示最占用内存的进程

dstat - -top-latency 显示延迟最大的进程

--tcp

--udp

--unix

--raw

--socket

--ipc

iotop常用参数和快捷键

iotop命令是一个用来监视磁盘I/O使用状况的top类工具iotop具有与top相似的UI，其中包括PID、用户、I/O、进程等相关信息，可查看每个进程是如何使用IO iotop输出

第一行：Read和Write速率总计

第二行：实际的Read和Write速率

第三行：参数如下：线程ID（按p切换为进程ID）优先级用户磁盘读速率磁盘写速率 swap交换百分比 IO等待所占的百分比线程/进程命令

-o, --only只显示正在产生I/O的进程或线程，除了传参，可以在运行过程中按o生效

-b, --batch非交互模式，一般用来记录日志

-n NUM, --iter=NUM设置监测的次数，默认无限。在非交互模式下很有用

-d SEC, --delay=SEC设置每次监测的间隔，默认1秒，接受非整形数据例如1.1

-p PID, --pid=PID指定监测的进程/线程

-u USER, --user=USER指定监测某个用户产生的I/O

-P, --processes仅显示进程，默认iotop显示所有线程

-a, --accumulated显示累积的I/O，而不是带宽

-k, --kilobytes使用kB单位，而不是对人友好的单位。在非交互模式下，脚本编程有用

-t, --time 加上时间戳，非交互非模式 -q, --quiet 禁止头几行，非交互模式，有三种指定方式 -q 只在第一次监测时显示列名 -qq 永远不显示列名 -qqq 永远不显示I/O汇总 交互按键

left和right方向键：改变排序 r：反向排序 o：切换至选项--only p：切换至--processes选项 a：切换至--accumulated选项 q：退出 i：改变线程的优先级

进程管理工具

kill命令：向进程发送控制信号，以实现对进程管理,每个信号对应一个数字，信号名称以SIG开头（可省略），不区分大小写显示当前系统可用信号： kill –l,trap -l 常用信号：man 7 signal 1) SIGHUP: 无须关闭进程而让其重读配置文件

2) SIGINT: 中止正在运行的进程；相当于Ctrl+c

3) SIGQUIT:相当于ctrl+

9) SIGKILL: 强制杀死正在运行的进程，可能会造成数据丢失

15) SIGTERM：终止正在运行的进程，kill 默认值

18) SIGCONT：继续运行

19) SIGSTOP：后台休眠

指定信号的方法： (1) 信号的数字标识：1, 2, 9 (2) 信号完整名称：SIGHUP (3) 信号的简写名称：HUP

按PID：kill [-SIGNAL] pid … kill –n SIGNAL pid;kill –s SIGNAL pid 按名称：killall [-SIGNAL] comm…

killall +进程名杀掉所有这个名字的进程

按模式：pkill [options] pattern

pkill -t pts/1 杀掉 pts/1 这个端口的所有进程, pkill -9 -t pts/1 强行杀掉pts/1这个端口的进程

-SIGNAL -u uid: effective user，生效者

-U uid: real user，真正发起运行命令者

-t terminal: 与指定终端相关的进程

-l: 显示进程名（pgrep可用）

-a: 显示完整格式的进程名（pgrep可用）

-P pid: 显示指定进程的子进程

作业管理

Linux的作业控制前台作业：通过终端启动，且启动后一直占据终端；后台作业：可通过终端启动，但启动后即转入后台运行（释放终端）

让作业运行于后台 (1) 运行中的作业： Ctrl+z (2) 尚未启动的作业： COMMAND & 后台作业虽然被送往后台运行，但其依然与终端相关；退出终端，将关闭后台作业。如果希望送往后台后，剥离与终端的关系 nohup COMMAND &>/dev/null & screen;COMMAND 查看当前终端所有作业：jobs

作业控制： fg [[%]JOB_NUM]：把指定的后台作业调回前台 bg [[%]JOB_NUM]：让送往后台的作业在后台继续运行 kill [%JOB_NUM]：终止指定的作业

kill %1 杀掉1进程

例：在后台ping 172.20.0.1 ，然后放到前台执行

[root@centos7 ~]#ping 172.20.0.1&
然后输入jobs，查看进程编号
[root@centos7 ~]#fg 5

例：前台执行的ping172.20.0.1，放在后台休眠，然后在后台运行

[root@centos7 ~]#ping 172.20.0.1
PING 172.20.0.1 (172.20.0.1) 56(84) bytes of data.
64 bytes from 172.20.0.1: icmp_seq=1 ttl=64 time=0.386 ms

按下Ctrl+z键，将ping放在后台休眠

^Z
[1]+  Stopped                 ping 172.20.0.1
[root@centos7 ~]#

输入jobs查看进程编号，用bg +进程编号使其在后台运行

[root@centos7 ~]#bg 1
[1]+ ping 172.20.0.1 &
[root@centos7 ~]#64 bytes from 172.20.0.1: icmp_seq=30 ttl=64 time=0.686 ms
64 bytes from 172.20.0.1: icmp_seq=31 ttl=64 time=0.616 ms

例：将后台休眠的程序恢复到后台执行

[root@centos7 ~]#killall -18 ping
[root@centos7 ~]#64 bytes from 172.20.0.1: icmp_seq=429 ttl=64 time=1.72 ms
64 bytes from 172.20.0.1: icmp_seq=430 ttl=64 time=1.30 ms

重点知识

如果在执行一个命令时，等待时间过长，而中间有可能出现断网情况，一般情况下需要重新执行，但如果用 screen 命令新开一个窗口执行，即使在中间断网，也可以用screen -r 继续执行命令。

或者使用 nohup + 命令& 剥离与终端的关系例： nohup ping 172.20.0.1 &

并行运行

同时运行多个进程，提高效率

方法1 vi all.sh f1.sh& f2.sh& f3.sh&

方法2 (f1.sh&);(f2.sh&);(f3.sh&)

方法3 { f1.sh& f2.sh& f3.sh& }