Python之线程

一、线程的起源

  1,进程

  之前我们已经了解了操作系统中进程的概念,程序并不能单独运行,只有将程序装载到内存中,系统为其分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次活动,属于动态概念。在多道编程中,我们允许多个程序同时加载到内存中,在操作系统的调度下,可以实现并发的执行。这样的设计大大提高了CPU的利用率。

  2,为什么还出现线程

  例子:pycharm三个任务:键盘输入、屏幕输出、自动保存硬盘,如果三个任务是同步工作的,那在键盘输入的时候我们就看不到屏幕输入,而我们需要在键盘输入的时候同时在屏幕上显示,还能在硬盘保存。方案一,此时我们可以开三个进程来完成,三个进程之间还要通过进程通信的介质帮助完成。方案二,其实我们还可以用线程来完成,此时我们可以在一个进程中开三个线程,由于线程间是资源共享的,所以不用借助介质就能完成数据交换。我们对比两种方案,方案一要开三个进程,如果有10000个任务,那就要开10000个进程,开进程很占内存的,而且开进程很耗时间的,还要借助介质才能实现通信,而方案就不一样了,只需开一个进程,节省了内存空间,缩短了时间,自身就可以实现数据共享,那肯定选择方案二,从而就凸显了线程的必要性。

  3,线程的出现

  随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建、撤销与切换存在较大的时空开销,因此引入轻型进程;二是由于对称多处理机出现,可以满足多个运行单位,二多个进程并行开销过大,出现了能独立运行的基本单位——线程,进程是资源分配的最小单位,线程是CPU调度的最小单位,每个进程中至少有一个线程,进程只是把资源集中到一起,而线程才是CPU上的执行单位。

  4,线程与进程的关系

  线程就是进程的组成单元,每一个进程至少有一个线程,同一个进程里的多个线程,可以共享进程里的资源,而且线程间切换比进程间切换快很多,进程不是一个可执行的实体,真正去执行程序的是线程,可以理解进程解释装线程的容器。

二,线程的创建方法

  由于线程诞生于进程,所以说线程的创建和进程一模一样,只是引用的模块不一样而已。

  1,方法一

from threading import Thread             #和进程相比,就是线程引入的是Thread模块
def fun1(i):
    print('你是%s'%(i))
if __name__ == '__main__':
    t=Thread(target=fun1,args=(1,))
    t.start()
    print('dddddddd')

  2,方法二

from threading import Thread
class Mythread(Thread):
    def __init__(self,nn):
        super().__init__()
        self.nn=nn
    def run(self):
        print('nishi%s'%self.nn)
if __name__ == '__main__':
    t=Mythread('haha')
    t.start()
    print('dfssd')

三、多进程与多线程的效率对比

from multiprocessing import Process
from threading import Thread
import time
def fun():
    print('ffff')
if __name__ == '__main__':
    l1=[]
    t_s_t=time.time()
    for i in range(100):
        t=Thread(target=fun,)
        l1.append(t)
        t.start()
    [tt.join() for tt in l1]
    t_e_t=time.time()
    l2 = []
    p_s_t = time.time()
    for i in range(100):
        p = Process(target=fun, )
        l1.append(p)
        p.start()
    [pp.join() for pp in l2]
    p_e_t = time.time()
    print('线程',t_e_t-t_s_t)
    print('进程',p_e_t-p_s_t)

线程 0.04086899757385254
进程 3.268401861190796

  从上面的结果看,线程的效率比进程高很多,这主要是创建、销毁进程和进程间切换太耗时间。

四、线程的其他方法

from threading import Thread,current_thread
import threading,time
def fun(i):
    time.sleep(2)
    print('我是%s号'%i)
    print('%s'%current_thread().getName())     #获取线程的name
    print('%s'%current_thread().ident)          #获取线程的id
if __name__ == '__main__':
    for i in range(10):
        t=Thread(target=fun,args=(i,))
        t.start()
    print(threading.enumerate())    #返回一个正在运行线程的列表
    print(threading.active_count())  #返回正在运行线程的数量

五、死锁现象

from threading import Thread,Lock,RLock
import time
def fun(loa,lob):
    loa.acquire()
    time.sleep(1)
    print('aaaaa')
    lob.acquire()
    print('bbbbb')
    lob.release()
    loa.release()
def fun1(loa,lob):
    lob.acquire()
    time.sleep(1)
    print('cccccc')
    loa.acquire()
    print('ddddd')
    loa.release()
    lob.release()
if __name__ == '__main__':
    # loa=Lock()                #当我们用Lock时就会出现死锁现象,由于是异步执行的,fun1拿到loa,fun2拿到lob,然后fun1再去拿lob,fun2再去拿loa,但现在两把锁都被对方拿着,还没释放,从而形成死锁
    # lob=Lock()
    loa=lob=RLock()             #当我们用Rlock时,若fun1先抢到,就必须等fun1用完,fun2才能拿到,这称为递归锁
    t1=Thread(target=fun,args=(loa,lob))
    t2=Thread(target=fun1,args=(loa,lob))
    t1.start()
    t2.start()

六、主进程和主线程的结束标志

  主进程在主进程的代码执行完就结束,而主线程要等到在同一进程中的非守护线程代码执行完毕才结束。

主进程的结束标志
from
multiprocessing import Process import time def fun1(): time.sleep(2) print('我是fun1') def fun2(): time.sleep(3) print('我是fun2') if __name__ == '__main__': p1=Process(target=fun1,) p2=Process(target=fun2,) p1.daemon=True #p1现在是守护进程,在主进程结束后,随之结束 p1.start() p2.start() print('我是主进程') #主进程会在这句代码执行完后结束,p1也会跟着结束,虽说p1还没执行完,但是p1直接被干死了
结果如下

我是主进程
我是fun2

 
主线程结束标志
from
threading import Thread import time def fun1(): time.sleep(2) print('我是fun1') def fun2(): time.sleep(3) print('我是fun2') if __name__ == '__main__': t1=Thread(target=fun1,) t2=Thread(target=fun2,) t1.daemon=True #把t1设为守护线程 t1.start() t2.start() print('我是主线程') #这句代码执行完后,主线程还没结束,主线程要等待非守护线程t2执行完毕后才结束,因为t2执行时间比t1长,所以这次t1也会执行完毕

 七、线程的信号量、事件

  线程的信号量、事件和进程的信号量、事件的用法一样,从threading中引入Semaphore、Event。

八、线程的队列

import queue
q=queue.Queue(3)    #先进先出
q.put(2)
q.put(4)
print(q.get())
q1=queue.LifoQueue(4)    #先进后出队列
q1.put(5)
q1.put(6)
print(q1.get())
q2=queue.PriorityQueue(2)   #优先级队列
q2.put((1,'a'))
q2.put((-1,8))
q2.put((1,'g'))
print(q2.get())
print(q2.get())
print(q2.get())

九、GIL锁

  GIL锁是加在一个进程里面的,而且每个进程里面都有,GIL锁锁定内容是整个一条线程,实现的功能就是在同一进程同一时间只能允许一条线程使用CPU,当线程运行到IO时,切换到下一个线程,这其实是Cpython工作效率比较慢的一大原因,也是一大弊端,但我们基本上的应用场景都是IO密集型的,线程之间来回切换,也相当于实现线程的并发,所以还是Cpython还是够用的

十、线程池

  现在我们重新学习一个模块concurrent.futures,在这个模块中提供了线程池和进程池,两个的用法也是一样的

concurrent.futures模块提供了高度封装的异步调用接口
ThreadPoolExecutor:线程池,提供异步调用
ProcessPoolExecutor: 进程池,提供异步调用
Both implement the same interface, which is defined by the abstract Executor class.

#2 基本方法
#submit(fn, *args, **kwargs)
异步提交任务

#map(func, *iterables, timeout=None, chunksize=1) 
取代for循环submit的操作

#shutdown(wait=True) 
相当于进程池的pool.close()+pool.join()操作
wait=True,等待池内所有任务执行完毕回收完资源后才继续
wait=False,立即返回,并不会等待池内的任务执行完毕
但不管wait参数为何值,整个程序都会等到所有任务执行完毕
submit和map必须在shutdown之前

#result(timeout=None)
取得结果

#add_done_callback(fn)
回调函数

  1,线程池和进程池

import time
import os
import threading
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor

def func(n):
    time.sleep(2)
    print('%s打印的:'%(threading.get_ident()),n)
    return n*n
tpool = ThreadPoolExecutor(max_workers=5) #默认一般起线程的数据不超过CPU个数*5
# tpool = ProcessPoolExecutor(max_workers=5) #进程池的使用只需要将上面的ThreadPoolExecutor改为ProcessPoolExecutor就行了,其他都不用改
#异步执行
t_lst = []
for i in range(5):
    t = tpool.submit(func,i) #提交执行函数,返回一个结果对象,i作为任务函数的参数 def submit(self, fn, *args, **kwargs):  可以传任意形式的参数
    t_lst.append(t)  #
    # print(t.result())
    #这个返回的结果对象t,不能直接去拿结果,不然又变成串行了,可以理解为拿到一个号码,等所有线程的结果都出来之后,我们再去通过结果对象t获取结果
tpool.shutdown() #起到原来的close阻止新任务进来 + join的作用,等待所有的线程执行完毕
print('主线程')
for ti in t_lst:
    print('>>>>',ti.result())

# 我们还可以不用shutdown(),用下面这种方式
# while 1:
#     for n,ti in enumerate(t_lst):
#         print('>>>>', ti.result(),n)
#     time.sleep(2) #每个两秒去去一次结果,哪个有结果了,就可以取出哪一个,想表达的意思就是说不用等到所有的结果都出来再去取,可以轮询着去取结果,因为你的任务需要执行的时间很长,那么你需要等很久才能拿到结果,
通过这样的方式可以将快速出来的结果先拿出来。如果有的结果对象里面还没有执行结果,那么你什么也取不到,这一点要注意,不是空的,是什么也取不到,那怎么判断我已经取出了哪一个的结果,可以通过枚举enumerate来搞,
记录你是哪一个位置的结果对象的结果已经被取过了,取过的就不再取了
#结果分析: 打印的结果是没有顺序的,因为到了func函数中的sleep的时候线程会切换,谁先打印就没准儿了,但是最后的我们通过结果对象取结果的时候拿到的是有序的,因为我们主线程进行for循环的时候,我们是按顺序将结果对象添加到列表中的。 # 37220打印的: 0 # 32292打印的: 4 # 33444打印的: 1 # 30068打印的: 2 # 29884打印的: 3 # 主线程 # >>>> 0 # >>>> 1 # >>>> 4 # >>>> 9 # >>>> 16

  2,map的使用

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
import threading
import os,time,random
def task(n):
    print('%s is runing' %threading.get_ident())
    time.sleep(random.randint(1,3))
    return n**2

if __name__ == '__main__':

    executor=ThreadPoolExecutor(max_workers=3)

    # for i in range(11):
    #     future=executor.submit(task,i)

    s = executor.map(task,range(1,5)) #map取代了for+submit
    print([i for i in s])

  3,回调函数的使用

import time
import os
import threading
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor

def func(n):
    time.sleep(2)
    return n*n

def call_back(m):
    print('结果为:%s'%(m.result()))

tpool = ThreadPoolExecutor(max_workers=5)
t_lst = []
for i in range(5):
    t = tpool.submit(func,i).add_done_callback(call_back)
原文地址:https://www.cnblogs.com/12345huangchun/p/10054232.html