Python的多线程实现

概述

Python虚拟机使用GIL（Global Interpreter Lock，全局解释器锁）来实现互斥线程对共享资源的访问，暂时无法利用多处理器的优势。

Python中，thread和threading均支持多线程，threading是对thread的封装与升级，一般使用threading模块，在具体实现中，一般结合队列Queue（线程安全）使用，实现多个线程之间的同步。

多线程的一些基本概念

对象互斥锁：用来保证共享数据的操作的完整性，即任何时刻，只能有一个线程访问该对象。Python中使用threading模块提供的Lock类，争夺资源时，首先acquire()，使用完成中release()释放。

死锁与可重入锁：对象互斥锁实现了简单的公共资源的保护，但是实际应用中，如果有多个公共资源，在线程间共享多个资源的时候，如果两个线程分别占有一部分资源并且同时等待对方的资源，就会出现死锁。所谓死锁：是指两个或两个以上的进程在执行过程中，因争夺资源而造成的一种互相等待的现象，若无外力作用，它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁，这些永远在互相等待的进程称为死锁进程。这种情况下Python使用可重入锁threading.RLock实现，RLock内部维护着一个Lock和一个counter变量，counter记录了acquire的次数，从而使得资源可以被多次require。直到一个线程所有的acquire都被release，其他的线程才能获得资源。

常用的多线程的实现模式

1. threading+队列

当多个线程需要共享数据或者资源的时候，可能会使得线程的使用变得复杂。线程模块提供了许多同步原语，包括信号量、条件变量、事件和锁。当这些选项存在时，最佳实践是转而关注于使用队列。相比较而言，队列更容易处理，并且可以使得线程编程更加安全，因为它们能够有效地传送单个线程对资源的所有访问，并支持更加清晰的、可读性更强的设计模式。

参考1的例3和例4分别演示了使用单个队列和多个队列实现多线程，具有较高的使用性。

参考3的引例1和引例2演示了生产者/消费者模式、以及简单线程池的实现。

2. Map的并发实现。

这种方式直接使用multiprocessing.dummy 中封装的现成的Pool，写好具体的业务处理函数，只需短短四行代码即可实现多线程，并且可以利用多处理器提高效率。

参见参考3中的例子。

3. 多线程的封装

待实现

参考

1. 使用Python进行线程编程：http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/

2. Python：使用threading模块实现多线程编程：http://blog.csdn.net/bravezhe/article/details/8585437

3. Python并行任务技巧：http://www.oschina.net/translate/python-parallelism-in-one-line