Linux系统编程（27）—

Linux系统编程（27）——线程控制

进程在各自独立的地址空间中运行，进程之间共享数据需要用mmap或者进程间通信机制，那么如何在一个进程的地址空间中执行多个线程呢。有些情况需要在一个进程中同时执行多个控制流程，这时候线程就派上了用场，比如实现一个图形界面的下载软件，一方面需要和用户交互，等待和处理用户的鼠标键盘事件，另一方面又需要同时下载多个文件，等待和处理从多个网络主机发来的数据，这些任务都需要一个“等待-处理”的循环，可以用多线程实现，一个线程专门负责与用户交互，另外几个线程每个线程负责和一个网络主机通信。

main函数和信号处理函数是同一个进程地址空间中的多个控制流程，多线程也是如此，但是比信号处理函数更加灵活，信号处理函数的控制流程只是在信号递达时产生，在处理完信号之后就结束，而多线程的控制流程可以长期并存，操作系统会在各线程之间调度和切换，就像在多个进程之间调度和切换一样。由于同一进程的多个线程共享同一地址空间，因此Text Segment、Data Segment都是共享的，如果定义一个函数，在各线程中都可以调用，如果定义一个全局变量，在各线程中都可以访问到，除此之外，各线程还共享以下进程资源和环境：

文件描述符表

每种信号的处理方式（SIG_IGN、SIG_DFL或者自定义的信号处理函数）

当前工作目录

用户id和组id

但有些资源是每个线程各有一份的：

线程id

上下文，包括各种寄存器的值、程序计数器和栈指针

栈空间

errno变量

信号屏蔽字

调度优先级

我们将要学习的线程库函数是由POSIX标准定义的，称为POSIX thread或者pthread。在Linux上线程函数位于libpthread共享库中，因此在编译时要加上-lpthread选项。

1. 创建线程

#include <pthread.h>
 
int pthread_create(pthread_t *restrictthread,
         constpthread_attr_t *restrict attr,
         void*(*start_routine)(void*), void *restrict arg);

返回值：成功返回0，失败返回错误号。以前学过的系统函数都是成功返回0，失败返回-1，而错误号保存在全局变量errno中，而pthread库的函数都是通过返回值返回错误号，虽然每个线程也都有一个errno，但这是为了兼容其它函数接口而提供的，pthread库本身并不使用它，通过返回值返回错误码更加清晰。

在一个线程中调用pthread_create()创建新的线程后，当前线程从pthread_create()返回继续往下执行，而新的线程所执行的代码由我们传给pthread_create的函数指针start_routine决定。start_routine函数接收一个参数，是通过pthread_create的arg参数传递给它的，该参数的类型为void *，这个指针按什么类型解释由调用者自己定义。start_routine的返回值类型也是void *，这个指针的含义同样由调用者自己定义。start_routine返回时，这个线程就退出了，其它线程可以调用pthread_join得到start_routine的返回值，类似于父进程调用wait(2)得到子进程的退出状态，稍后详细介绍pthread_join。

pthread_create成功返回后，新创建的线程的id被填写到thread参数所指向的内存单元。我们知道进程id的类型是pid_t，每个进程的id在整个系统中是唯一的，调用getpid(2)可以获得当前进程的id，是一个正整数值。线程id的类型是thread_t，它只在当前进程中保证是唯一的，在不同的系统中thread_t这个类型有不同的实现，它可能是一个整数值，也可能是一个结构体，也可能是一个地址，所以不能简单地当成整数用printf打印，调用pthread_self(3)可以获得当前线程的id。

attr参数表示线程属性，本章不深入讨论线程属性，所有代码例子都传NULL给attr参数，表示线程属性取缺省值。首先看一个简单的例子：

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <pthread.h>
#include <unistd.h>
 
pthread_t ntid;
 
void printids(const char *s)
{
         pid_t      pid;
         pthread_t  tid;
 
         pid= getpid();
         tid= pthread_self();
         printf("%spid %u tid %u (0x%x)
", s, (unsigned int)pid,
                (unsigned int)tid, (unsigned int)tid);
}
 
void *thr_fn(void *arg)
{
         printids(arg);
         returnNULL;
}
 
int main(void)
{
         interr;
 
         err= pthread_create(&ntid, NULL, thr_fn, "new thread: ");
         if(err != 0) {
                   fprintf(stderr,"can't create thread: %s
", strerror(err));
                   exit(1);
         }
         printids("mainthread:");
         sleep(1);
 
         return0;
}

编译运行结果如下：

main thread: pid 7398 tid 3084450496(0xb7d8fac0)
new thread: pid 7398 tid 3084446608 (0xb7d8eb90)

可知在Linux上，thread_t类型是一个地址值，属于同一进程的多个线程调用getpid(2)可以得到相同的进程号，而调用pthread_self(3)得到的线程号各不相同。

由于pthread_create的错误码不保存在errno中，因此不能直接用perror(3)打印错误信息，可以先用strerror(3)把错误码转换成错误信息再打印。

2. 终止线程

如果需要只终止某个线程而不终止整个进程，可以有三种方法：

从线程函数return。这种方法对主线程不适用，从main函数return相当于调用exit。

一个线程可以调用pthread_cancel终止同一进程中的另一个线程。

线程可以调用pthread_exit终止自己。

用pthread_cancel终止一个线程分同步和异步两种情况，比较复杂，本章不打算详细介绍，读者可以参考[APUE2e]。下面介绍pthread_exit的和pthread_join的用法。

#include <pthread.h>
void pthread_exit(void *value_ptr);

value_ptr是void *类型，和线程函数返回值的用法一样，其它线程可以调用pthread_join获得这个指针。

需要注意，pthread_exit或者return返回的指针所指向的内存单元必须是全局的或者是用malloc分配的，不能在线程函数的栈上分配，因为当其它线程得到这个返回指针时线程函数已经退出了。

#include <pthread.h>
int pthread_join(pthread_t thread, void**value_ptr);

返回值：成功返回0，失败返回错误号

调用该函数的线程将挂起等待，直到id为thread的线程终止。thread线程以不同的方法终止，通过pthread_join得到的终止状态是不同的，总结如下：

如果thread线程通过return返回，value_ptr所指向的单元里存放的是thread线程函数的返回值。

如果thread线程被别的线程调用pthread_cancel异常终止掉，value_ptr所指向的单元里存放的是常数PTHREAD_CANCELED。

如果thread线程是自己调用pthread_exit终止的，value_ptr所指向的单元存放的是传给pthread_exit的参数。

如果对thread线程的终止状态不感兴趣，可以传NULL给value_ptr参数。

看下面的例子：

#include <stdio.h>
#include <stdlib.h>
#include <pthread.h>
#include <unistd.h>
 
void *thr_fn1(void *arg)
{
         printf("thread1 returning
");
         return(void *)1;
}
 
void *thr_fn2(void *arg)
{
         printf("thread2 exiting
");
         pthread_exit((void*)2);
}
 
void *thr_fn3(void *arg)
{
         while(1){
                   printf("thread3 writing
");
                   sleep(1);
         }
}
 
int main(void)
{
         pthread_t   tid;
         void        *tret;
 
         pthread_create(&tid,NULL, thr_fn1, NULL);
         pthread_join(tid,&tret);
         printf("thread1 exit code %d
", (int)tret);
 
         pthread_create(&tid,NULL, thr_fn2, NULL);
         pthread_join(tid,&tret);
         printf("thread2 exit code %d
", (int)tret);
 
         pthread_create(&tid,NULL, thr_fn3, NULL);
         sleep(3);
         pthread_cancel(tid);
         pthread_join(tid,&tret);
         printf("thread3 exit code %d
", (int)tret);
 
         return0;
}

运行结果是：

thread 1 returning
thread 1 exit code 1
thread 2 exiting
thread 2 exit code 2
thread 3 writing
thread 3 writing
thread 3 writing
thread 3 exit code -1

可见在Linux的pthread库中常数PTHREAD_CANCELED的值是-1。可以在头文件pthread.h中找到它的定义：

#define PTHREAD_CANCELED ((void *) -1)一般情况下，线程终止后，其终止状态一直保留到其它线程调用pthread_join获取它的状态为止。但是线程也可以被置为detach状态，这样的线程一旦终止就立刻回收它占用的所有资源，而不保留终止状态。不能对一个已经处于detach状态的线程调用pthread_join，这样的调用将返回EINVAL。对一个尚未detach的线程调用pthread_join或pthread_detach都可以把该线程置为detach状态，也就是说，不能对同一线程调用两次pthread_join，或者如果已经对一个线程调用了pthread_detach就不能再调用pthread_join了。

#include <pthread.h>
int pthread_detach(pthread_t tid);

返回值：成功返回0，失败返回错误号。