什么是进程
进程是线程的容器,程序是指令,数据及其组织形式的描述,进程是程序的实体.
第一:进程是一个实体.每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text reqion),数据区域(data reqion)和堆栈(stack reqion).文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储区域储存着活动过程调用的指令和本地变量 第二:进程是一个"执行中的程序".程序是一个没有生命的实体,只有处理器赋予程序生命时,它才能成为一个活动的实体,我称其为进程 进程是操作系统中最基本,重要的概念.是多道程序系统出现后,为了刻画系统内部出现的动态情况,描述系统内部各道程序的活动规律引进的一个概念,所有多道程序设计操作系统都建立在进程的基础上.
从理论角度看,是对正在运行的程序的抽象;
从实现角度看,是一种数据结构,目的在于清晰的刻画动态系统的内在规律,有效管理和调度进入计算机系统主存储器运行的程序.
动态性:进程的实质是程序在多道系统中的一次执行过程,进程是动态产生,动态消亡的
并发性:任何进程都可以同其他进程一起并发执行
独立性:进程是一个能独立运行的基本单位,同时也是系统分配资源和调度的独立单位
异步性:由于进程间的相互制约,使进程具有执行的间断性,即进程按各自独立的,不可预知的速度向前推进
结构特征:进程由程序,数据和进程控制块三部分组成
多个不同的进程可以包含相同的程序:一个程序在不同的数据集合里就构成不同的进程,能得到不同的结果,但是执行过程中,程序不能发生改变.
程序是指令和数据的有序集合,其本身没有任何的含义,是一个静态的概念
而进程是程序在处理机上的一次执行过程,它是一个动态的概念.
程序可以作为一种软件资料长期存在,而进程是有一定生命期的,
程序是永久的,进程是暂时的
同一个程序执行两次,就会在操作系统中出现两个进程,所以我们可以同时运行一个软件,分别做不同的事情也不会混乱.
进程间的数据不共享;
import multiprocessing data_list = [] def task(arg): data_list.append(arg) print(data_list) def run(): for i in range(10): p = multiprocessing.Process(target = task,args =(i,)) p.start() if __name__ == '__main__': run()
进程常用功能:
import time def task(arg): time.sleep(2) print(arg) def run(): print('11111') p1 = multiprocessing.Process(target=task,args = (i,)) p1.name = 'pp1' p1.start() print('22222') p2 = multiprocessing.Process(target=task,args = (i,)) p2.name = 'pp2' p2.start() print('33333') if __name__ = '__main__': run()
通过继承方式创建进程:
class MyProcess(multiprocessing.Process): def run(self): print('当前进程',multiprocessing.current_process()) def run(): p1 = MyProcess() p1.start() p2 = MyProcess() p2.start() if __name__ == '__main__': run() #当前进程 <MyProcess(MyProcess-2, started)> #当前进程 <MyProcess(MyProcess-1, started)>
进程间数据共享:
def task(arg,q): q.put(arg) if __name__ =='__main__': q = multiprocessing.Queue() for i in range(10): p = multiprocessing.Process(target = task,args=(i,)) p.start() while True: v = q.get() print(v)
def task(arg,dic): time.sleep(2) dic[arg] = 100 if __name__ == '__main__': m = multiprocessing.Manger() process_list = [] for i in range(10): p = multiprocessing.Process(target = task,args = (i,)) p.start() process_list.append(p) while True: count = 0 for p in process_list: if not p.is_alive(): count += 1 if count == len(process_list): break print(dic)
进程锁:(与线程锁相同的用法)
#加锁可以保证多个进程修改同一块数据时,同一时间只能有一个任务可以进行修改,即串行的修改,没错,速度是慢了,但牺牲了速度却保证了数据安全。 虽然可以用文件共享数据实现进程间通信,但问题是: 1.效率低(共享数据基于文件,而文件是硬盘上的数据) 2.需要自己加锁处理 #因此我们最好找寻一种解决方案能够兼顾:1、效率高(多个进程共享一块内存的数据)2、帮我们处理好锁问题。这就是mutiprocessing模块为我们提供的基于消息的IPC通信机制:队列和管道。 队列和管道都是将数据存放于内存中 队列又是基于(管道+锁)实现的,可以让我们从复杂的锁问题中解脱出来, 我们应该尽量避免使用共享数据,尽可能使用消息传递和队列,避免处理复杂的同步和锁问题,而且在进程数目增多时,往往可以获得更好的可获展性。
import time import multiprocessing #引入进程模块 lock = multiprocessing.Rlock() def task(arg): print(">>>") lock.acquire() #加锁 time.sleep(2) print(arg) lock.release() #解锁
进程池:
import time from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor def task(ark): time.sleep(2) print(arg) if __name__ =='__main__': pool = ProcessPoolExecutor(5) for i in range(10): pool.submit(task,i)
初始爬虫:
(安装: pip3 install requests / pip3 install beautifulsoup4)
import requests from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor #模拟浏览器发送请求 #内部创建 sk = socket.socket() #和抽屉进行socket连接 sk.connect(...) #sk.sendall('...') #sk.recv('...') def task(url): print(url) r1 = requests.get( url = url, headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'}) # 查看下载下来的文本信息 soup = BeautifulSoup(r1.text,'html.parser') print(soup.text) # content_list = soup.find('div',attrs={'id':'content-list'}) # for item in content_list.find_all('div',attrs={'class':'item'}): # title = item.find('a').text.strip() # target_url = item.find('a').get('href') # print(title,target_url) def run(): pool = ThreadPoolExecutor(5) for i in range(1,50): pool.submit(task,'https://dig.chouti.com/all/hot/recent/%s' %i) if __name__ == '__main__': run()