23、线程基本概念

　　与进程类似，线程是允许应用程序并发执行多个任务的一种机制。一个进程包含多个线程，同一进程中的所有县城均会独立执行相同程序，且共享一份全局内存区域。

1、线程的基本概念

　　在一个进程中的多个执行路线叫做线程，更准确的定义是：线程是进程内部的一个控制序列。每个进程至少有一个执行线程（到目前为止，所涉及的所有进程都只有一个线程）。

　　引入多线程之后，在程序设计时就可以把进程设计成在同一时刻能够执行多个任务，每个线程处理各自独立的任务，这样做有以下优点：

（1）通过为每种事件类型单独分配单独的处理线程，可以简化处理异步事件的代码。每个线程在进行任务处理时可以采用同步编程的模式，同步编程比异步编程模式简单的多。

（2）多个线程可以自动地访问相同的存储地址空间和文件描述符。

（3）有些问题可以分解，从而提高整个程序的吞吐量。在只有一个控制线程的情况下，一个单线进程要完成多个任务，只需要把这些任务串行化。但有多个控制线程时，相互独立任务的处理就可以交叉进行，此时只需要为每个任务分配一个单独的线程。只有在两个任务的处理过程互不依赖的情况下，两个任务才可以交叉执行。

（4）交互的程序同样可以通过使用多线程来改善响应时间，多线程可以把程序中处理用户输入和输出的部分与其他部分分开。

　　有人把多线程的程序设计于多处理器和多核系统联系起来，但是即使运行在单个处理其上，也能得到多线程编程模型的好处。处理器的数量并不影响程序结构，所以不管处理器的数量有多少，程序都可以通过使用线程得到简化。而且，即使多个程序在执行串行话任务时会收到阻塞，但由于某些线程阻塞时另外一些线程仍然可以运行，因此在单处理器上运行多线程程序可以改善响应时间和吞吐量。

　　同一程序中的所有线程均会独立执行相同的程序，且共享同一份全局内存区域，包括初始化的数据段、未初始化的数据段以及堆内存段。除全局内存之外，线程还共享了一些其他属性（对于进程而言，这些属性是全局性的，而非针对某个特定线程）

（1）进程ID和父进程ID。

（2）进程组ID和会话ID。

（3）控制终端。

（4）进程凭证（用户ID和组ID）。

（5）打开的文件描述符。

（6）使用函数fcntl()创建的记录锁。

（7）信号处理

（8）文件系统的相关信息，如文件权限掩码、当前工作目录及根目录。

（9）间隔定时器和POSIX定时器。

（10）System V信号量撤销值。

（11）资源限制。

（12）CPU时间消耗。

（13）资源消耗。

（14）nice值。

　　各线程所独有的属性，包括线程ID、信号掩码、线程特有数据、备选信号线、errno变量、悬浮型环境、实时调度策略、CPU亲和力、能力和栈（本地变量和函数的调用链接信息）。

2、线程与进程

　　将并发程序实现设计为多线程还是多进程，需要根据实际的需求。相对于多进程而言，多线程具有如下优势：

　（1）线程间的数据共享很简单，相比之下，进程间的数据共享需要更多的投入（例如，创建共享内存段或者使用管道）。

　（2）创建线程要快于创建进程，线程的上下文切换一般比进程短。

　　相对于多进程而言，多线程的劣势如下：

（1）多线程编程时，需要确保调用线程安全的函数，或者以线程安全的方式来调用函数，多进程应用则无需关注这些。

（2）某个线程中的bug（例如，通过一个错误的指针来修改内存）可能会危及该进程的所有线程，因为他们共享者相同的地址空间和其他属性，相比之下，进程间的隔离更加彻底。

（3）每个进程都在争用宿主进程优先的虚拟地址空间，一旦每个线程栈及线程特有数据消耗掉进程虚拟地址空间的一部分，则后续线程都将无缘使用这些区域。尽管有效地址空间很大，但当进程分配大量现场，亦或线程使用大量内存时，这一因素的限制作用也就凸显出来了。与之相反，每个进程都可以使用全部的有效虚拟内存，仅受制于实际内存和交换空间。

　　此外，对于选择多进程还是多线程，还应考虑以下因素：

（1）在多线程应用中处理信号时，需要格外小心作为通则，一般建议避免在多线程程序中处理信号0。

（2）在多线程应用中，所有线程必须运行同意程序（即使可能位于不同函数中；对于多进程应用，不同的进程则可以运行不同的程序。

（3）处理数据，线程还可以共享其他信息（例如，数据描述符、信号处理、当前工作目录，以及用户ID和组ID）。

　　在多线程程序中，多线程并发执行同一程序。所有程序共享相同的全局和堆变量，但每个线程都配有用来存放局部变量的私有栈。同一进程中的线程还可共享其他属性，包括进程ID、打开的文件描述符、信号处理、当前工作目录以及资源限制等。

　　线程与进程的关键区别在于：线程比进程更易于共享信息。这也是许多应用程序舍弃进程而取线程的主要原因。对余某些操作来说，线程可以提供更好的性能，但是，在程序设计的进程与线程之中，这并不起决定性作用。

PTHREADS API背景

　　在20世纪80年代末90年代初，存在者数种不同的线程接口。1995年，POSIX.1.c对POSIX线程API做了标准化处理，该标准后来为SUSv3所接纳。

1、线程数据类型

　　Pthreads API定义了一系列数据类型，如下表所示：

　　SUSv3并未规定如何实现这些数据类型，可移植的程序应将其视为“不透明”数据，也就是说应避免对此类数据类型的变量的结构或内容产生依赖。尤其应该注意的是：不能使用C语言的比较操作去比较这些类型的变量。

2、线程和errno

　　在传统的UNIX API中，errno虽是全局整型变量，却无法满足多线程程序的需求。如果线程调用的函数通过全局errno返回错误，则会与其他发起函数调用并检查errno的线程混淆在一起，这将引发竞争条件。因此，在多线程程序中，每个线程都有属于自己的errno。

　　在Linux系统中，线程特有的errno实现方式与大多数UNIX系统实现errno的方式相类似：将errno定义为一个宏，可展开为函数调用，该函数返回一个可修改的左值，且为每个线程所独有。errno机制在保留传统UNIX API报错方式的同时，也适应了多线程的环境。

3、pthread函数返回值

　　从系统调用和库函数中返回系统的传统做法是：返回0表示成功；返回-1表示失败，并设置errno以标识错误原因。pthread API则有所不同，所有Pthreads函数返回0表示成功，返回一正值表示失败。这一失败时的返回值与传统UNIX系统调用置于errno中的值的含义相同。

　　由于多线程程序对errno的每次引用都会带来函数调用的开销，因此，后面的实例并不会直接将Pthreads赋给errno，而是使用一个中间变量，通过诊断函数errExitEN()对其的调用来实现，如下所示：

pthread_t *thread;
int s;

s=ppthread_creat(&thread,NULL,func,&arg);
if(s!=0)
    errExitEN(s;"pthread_creat()");

4、编译Pthreads程序

　　Linux系统平台上，编译在调用Pthread API的程序时，需要设置cc -pthread的编译选项，使用该选项的效果如下：

（1）定义_REENTRANT预处理宏，会公开对少数可重入函数的声明。

（2）程序会于库libpthread进行链接(相当于-lpthread)