linux 中的进程wait（）和waitpid函数，僵尸进程详解，以及利用这两个函数解决进程同步问题

转载自：http://blog.sina.com.cn/s/blog_7776b9d3010144f9.html
在UNIX 系统中,一个进程结束了,但是他的父进程没有等待(调用wait / waitpid)他, 那么他将变成一个僵尸进程. 但是如果该进程的父进程已经先结束了,那么该进程就不会变成僵尸进程, 因为每个进程结束的时候,系统都会扫描当前系统中所运行的所有进程, 看有没有哪个进程是刚刚结束的这个进程的子进程,如果是的话,就由Init 来接管他,成为他的父进程……
 
一个进程在调用exit命令结束自己的生命的时候，其实它并没有真正的被销毁， 而是留下一个称为僵尸进程（Zombie）的数据结构（系统调用exit，它的作用是 使进程退出，但也仅仅限于将一个正常的进程变成一个僵尸进程，并不能将其完全销毁） 
 
2. 僵尸进程的危害 
由于子进程的结束和父进程的运行是一个异步过程,即父进程永远无法预测子进程 到底什么时候结束. 那么不会因为父进程太忙来不及waid子进程,或者说不知道 子进程什么时候结束,而丢失子进程结束时的状态信息呢? 不会.因为UNIX提供了一种机制可以保证 只要父进程想知道子进程结束时的状态信息, 就可以得到. 这种机制就是: 在每个进程退出的时候,内核释放该进程所有的资源,包括打开的文件,占用的内存等. 但是仍然为其保留一定的信息(包括进程号the process ID,退出状态the termination status of the process,运行时间the amount of CPU time taken by the process等), 直到父进程通过wait / waitpid来取时才释放. 但这样就导致了问题,如果你进程不调用wait / waitpid的话, 那么保留的那段信息就不会 释放,其进程号就会一定被占用,但是系统所能使用的进程号是有限的,如果大量的产生 僵死进程,将因为没有可用的进程号而导致系统不能产生新的进程. 此即为僵尸进程的危害,应当避免. 
 
3.僵尸进程的避免 
1、父进程通过wait和waitpid等函数等待子进程结束，这会导致父进程挂起
2. 如果父进程很忙，那么可以用signal函数为SIGCHLD安装handler，因为子进程结束后， 父进程会收到该信号，可以在handler中调用wait回收 
3. 如果父进程不关心子进程什么时候结束，那么可以用signal（SIGCHLD, SIG_IGN） 通知内核，自己对子进程的结束不感兴趣，那么子进程结束后，内核会回收， 并不再给父进程发送信号
4. 还有一些技巧，就是fork两次，父进程fork一个子进程，然后继续工作，子进程fork一 个孙进程后退出，那么孙进程被init接管，孙进程结束后，init会回收。不过子进程的回收 还要自己做。 下面就是Stevens给的采用两次folk避免僵尸进程的示例.
 
3、僵尸进程的处理： 它需要它的父进程来为它收尸，如果他的父进程没安装SIGCHLD信号处理函数调用wait或waitpid()等待子进程结束，又没有显式忽略该信号，那么它就一直保持僵尸状态； 存在的问题：如果父进程是一个循环，不会结束，那么子进程就会一直保持僵尸状态，这就是为什么系统中有时会有很多的僵尸进程，系统的性能可能会收到影响。 ** 如果这时父进程结束了，那么init进程自动会接手这个子进程，为它收尸，它还是能被清除的。 4、子进程结束后为什么要进入僵尸状态? * 因为父进程可能要取得子进程的退出状态等信息。 5、僵尸状态是每个子进程比经过的状态吗？ 是的。 * 任何一个子进程(init除外)在exit()之后，并非马上就消失掉，而是留下一个称为僵尸进程(Zombie)的数据结构，等待父进程处理。这是每个 子进程在结束时都要经过的阶段。如果子进程在exit()之后，父进程没有来得及处理，这时用ps命令就能看到子进程的状态是“Z”。如果父进程能及时 处理，可能用ps命令就来不及看到子进程的僵尸状态，但这并不等于子进程不经过僵尸状态。 * 如果父进程在子进程结束之前退出，则子进程将由init接管。init将会以父进程的身份对僵尸状态的子进程进行处理。 6、如何查看僵尸进程： $ ps -el 或ps aux |grep -w 'z'其中，有标记为Z的进程就是僵尸进程 S代表休眠状态；D代表不可中断的休眠状态；R代表运行状态；Z代表僵死状态；T代表停止或跟踪状态
 
 
 
wait 系统调用
 
 
系统中的僵尸进程都要由wait系统调用来回收，下面就通过实战看一看wait的具体用法：
 
wait的函数原型是：
 
#include <sys/types.h> 
#include <sys/wait.h>
pid_t wait(int *status);
进程一旦调用了wait，就立即阻塞自己，由wait自动分析是否当前进程的某个子进程已经退出，如果让它找到了这样一个已经变成僵尸的子进程， wait就会收集这个子进程的信息，并把它彻底销毁后返回；如果没有找到这样一个子进程，wait就会一直阻塞在这里，直到有一个出现为止。
 
参数status用来保存被收集进程退出时的一些状态，它是一个指向int类型的指针。但如果我们对这个子进程是如何死掉的毫不在意，只想把这个僵尸进程消灭掉，（事实上绝大多数情况下，我们都会这样想），我们就可以设定这个参数为NULL，就象下面这样：
 
pid = wait(NULL);
如果成功，wait会返回被收集的子进程的进程ID，如果调用进程没有子进程，调用就会失败，此时wait返回-1，同时errno被置为ECHILD。
 
下面就让我们用一个例子来实战应用一下wait调用:
 
 
#include <sys/types.h> 
#include <sys/wait.h> 
#include <unistd.h> 
#include <stdlib.h> 
#include <stdio.h> 
#include <errno.h> 
 
int main() 
{ 
pid_t pc, pr; 
 
pc = fork(); 
if ( pc < 0 )  
{ 
printf("create child prcocess error: %s
", strerror(errno)); 
exit(1); 
} 
else if ( pc == 0)  
{ 
printf("I am child process with pid %d 
", getpid()); 
sleep(3); 
exit(0); 
} 
else  
{ 
printf("Now in parent process, pid = %d
", getpid()); 
printf("I am waiting child process to exit.
"); 
pr = wait(NULL);  
if ( pr > 0 )  
printf("I catched a child process with pid of %d
", pr); 
else  
printf("error: %s
.
", strerror(errno)); 
} 
exit(0); 
} 
 
编译并运行：
 
$ gcc wait1.c -o wait1
$ ./wait1
I am child process with pid 2351
Now in parent process, pid = 2350
I am waiting child process to exit.
I catched a child process with pid of 2351
可以明显注意到，在第2行结果打印出来前有10秒钟的等待时间，这就是我们设定的让子进程睡眠的时间，只有子进程从睡眠中苏醒过来，它才能正常退 出，也就才能被父进程捕捉到。其实这里我们不管设定子进程睡眠的时间有多长，父进程都会一直等待下去，读者如果有兴趣的话，可以试着自己修改一下这个数 值，看看会出现怎样的结果。
 
如果参数status的值不是NULL，wait就会把子进程退出时的状态取出并存入其中，这是一个整数值（int），指出了子进程是正常退出还是 被非正常结束的（一个进程也可以被其他进程用信号结束，我们将在以后的文章中介绍），以及正常结束时的返回值，或被哪一个信号结束的等信息。由于这些信息 被存放在一个整数的不同二进制位中，所以用常规的方法读取会非常麻烦，人们就设计了一套专门的宏（macro）来完成这项工作，下面我们来学习一下其中最 常用的两个：
 
1，WIFEXITED(status) 这个宏用来指出子进程是否为正常退出的，如果是，它会返回一个非零值。
 
（请注意，虽然名字一样，这里的参数status并不同于wait唯一的参数–指向整数的指针status，而是那个指针所指向的整数，切记不要搞混了。）
 
2， WEXITSTATUS(status) 当WIFEXITED返回非零值时，我们可以用这个宏来提取子进程的返回值，如果子进程调用exit(5)退出，WEXITSTATUS(status) 就会返回5；如果子进程调用exit(7)，WEXITSTATUS(status)就会返回7。请注意，如果进程不是正常退出的，也就是说， WIFEXITED返回0，这个值就毫无意义。
 
下面通过例子来实战一下我们刚刚学到的内容：
 
 
#include <sys/types.h> 
#include <sys/wait.h> 
#include <unistd.h> 
 
int main() 
{ 
int status; 
pid_t pc, pr; 
 
pc = fork(); 
if ( pc < 0)  
printf("error occured.
"); 
else if ( pc == 0 )  
{ 
printf("This is child process with pid of %d.
", getpid()); 
exit(3);  
} 
else  
{ 
pr = wait(&status); 
if ( WIFEXITED(status) )    
{ 
printf("The child process %d exit normally.
", pr); 
printf("the return code is %d.
", WEXITSTATUS(status)); 
} 
else  
printf("The child process %d exit abnormally.
", pr); 
} 
 
exit(0); 
} 
 
编译并运行:
 
$ gcc wait2.c -o wait2
$ ./wait2
This is child process with pid of 1538.
the child process 1538 exit normally.
the return code is 3.
父进程准确捕捉到了子进程的返回值3，并把它打印了出来。
 
当然，处理进程退出状态的宏并不止这两个，但它们当中的绝大部分在平时的编程中很少用到，就也不在这里浪费篇幅介绍了，有兴趣的读者可以自己参阅Linux man pages去了解它们的用法。

http://blog.163.com/lqy_super/blog/static/1997510212012112953858902/
进程同步：

有时候，父进程要求子进程的运算结果进行下一步的运算，或者子进程的功能是为父进程提供了下一步执行的先决条件（如：子进程建立文件，而父进程写入数据），此时父进程就必须在某一个位置停下来，等待子进程运行结束，而如果父进程不等待而直接执行下去的话，可以想见，会出现极大的混乱。这种情况称为进程之间的同步，更准确地说，这是进程同步的一种特例。进程同步就是要协调好2个以上的进程，使之以安排好地次序依次执行。解决进程同步问题有更通用的方法，我们将在以后介绍，但对于我们假设的这种情况，则完全可以用wait系统调用简单的予以解决。请看下面这段程序：

#include <sys/types.h>
#include <sys/wait.h>
main()
{
pid_t pc, pr;
int status;
pc=fork();
if(pc<0)
printf("Error occured on forking./n");
else if(pc==0){
exit(0);
}else{
pr=wait(&status);
}
}
 
这段程序只是个例子，不能真正拿来执行，但它却说明了一些问题，首先，当fork调用成功后，父子进程各做各的事情，但当父进程的工作告一段落，需要用到子进程的结果时，它就停下来调用wait，一直等到子进程运行结束，然后利用子进程的结果继续执行，这样就圆满地解决了我们提出的进程同步问题。 
waitpid系统调用在Linux函数库中的原型是：
#include <sys/types.h> 
#include <sys/wait.h>
pid_t waitpid(pid_t pid,int *status,int options)
  
从本质上讲，系统调用waitpid和wait的作用是完全相同的，但waitpid多出了两个可由用户控制的参数pid和options，从而为我们编程提供了另一种更灵活的方式。下面我们就来详细介绍一下这两个参数：

pid

从参数的名字pid和类型pid_t中就可以看出，这里需要的是一个进程ID。但当pid取不同的值时，在这里有不同的意义。


pid>0时，只等待进程ID等于pid的子进程，不管其它已经有多少子进程运行结束退出了，只要指定的子进程还没有结束，waitpid就会一直等下去。 
pid=-1时，等待任何一个子进程退出，没有任何限制，此时waitpid和wait的作用一模一样。 
pid=0时，等待同一个进程组中的任何子进程，如果子进程已经加入了别的进程组，waitpid不会对它做任何理睬。 
pid<-1时，等待一个指定进程组中的任何子进程，这个进程组的ID等于pid的绝对值。 

options

options提供了一些额外的选项来控制waitpid，目前在Linux中只支持WNOHANG和WUNTRACED两个选项，这是两个常数，可以用"|"运算符把它们连接起来使用，比如：

ret=waitpid(-1,NULL,WNOHANG | WUNTRACED);
 
如果我们不想使用它们，也可以把options设为0，如：

ret=waitpid(-1,NULL,0);
 
如果使用了WNOHANG参数调用waitpid，即使没有子进程退出，它也会立即返回，不会像wait那样永远等下去。

而WUNTRACED参数，由于涉及到一些跟踪调试方面的知识，加之极少用到，这里就不多费笔墨了，有兴趣的读者可以自行查阅相关材料。

看到这里，聪明的读者可能已经看出端倪了--wait不就是经过包装的waitpid吗？没错，察看<内核源码目录>/include/unistd.h文件349-352行就会发现以下程序段：

static inline pid_t wait(int * wait_stat)
{
return waitpid(-1,wait_stat,0);
}
 


1.9.2 返回值和错误

waitpid的返回值比wait稍微复杂一些，一共有3种情况：


当正常返回的时候，waitpid返回收集到的子进程的进程ID； 
如果设置了选项WNOHANG，而调用中waitpid发现没有已退出的子进程可收集，则返回0；
如果调用中出错，则返回-1，这时errno会被设置成相应的值以指示错误所在； 

当pid所指示的子进程不存在，或此进程存在，但不是调用进程的子进程，waitpid就会出错返回，这时errno被设置为ECHILD；


 #include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>
main()
{
pid_t pc, pr;
pc=fork();
if(pc<0) 
printf("Error occured on forking./n");
else if(pc==0){ 
sleep(10); 
exit(0);
}
do{
pr=waitpid(pc, NULL, WNOHANG); 
if(pr==0){ 
printf("No child exited/n");
sleep(1);
}
}while(pr==0);  注意这儿用了循环的方式，这个思想很重要的！
if(pr==pc)
printf("successfully get child %d/n", pr);
else
printf("some error occured/n");
}
 


编译并运行：

$ cc waitpid.c -o waitpid
$ ./waitpid
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
successfully get child 1526
 


父进程经过10次失败的尝试之后，终于收集到了退出的子进程。

因为这只是一个例子程序，不便写得太复杂，所以我们就让父进程和子进程分别睡眠了10秒钟和1秒钟，代表它们分别作了10秒钟和1秒钟的工作。父子进程都有工作要做，父进程利用工作的简短间歇察看子进程的是否退出，如退出就收集它。

for(;wait((int*)0)>0;);

这里的for循环的作用就是等到退出成功才往下运行，否则一直在等待；

等价于waitpid(-1, (int *)0, 0)，等待指子进程结束。
总结：如果我们有很多个子进程，那么，当任何一个子进程结束的时候wait都会返回。如果我们像等待其中某一个特定的进程结束（假定我们知道那个进程的进程ID），在老版本的Unix系统上，我们能够调用wait函数，并且比较它返回的进程ID和我们想得到的进程ID。如果这个结束的进程不是我们期望的进程，那么我们不得不保存这个进程ID和结束状态，然后再一次调用wait函数。我们需要继续做这样的事情直到我们期望的进程结束。下一次我们我想要等待一个特定进程的时候，我们需要借助已经结束的进程列表中（这就是我们为什么要记录那些进程ID和结束状态的原因）判断我们是否已经等待过这个进程了，如果没有我们要再一次的调用wait函数。在时下流行的一些Unix系统中，我们可以使用waitpid来完成这个工作，相比较而言方便一些。