python3多进程爬虫(第一卷)

进程这个东西概念很多人很模糊,而多进程并发爬虫也算是爬虫几大难点,现在我先说下进程的基本使用:

开启一个python文件

函数sayhi就是一个进程而且是主进程

现在呢我想循环输出NAME,n

正常我只要写一段循环就可以正常顺序逐条输出,也就是循环M次,所用的输出时间就是2M秒

我现在想让这些数据一起输出怎么办,也就是让当前函数同时执行且输出内容不同,那么现在就需要创建子进程了,并且并发执行:

话不多说代码献上

这样就可以并发执行了,注意啊 进程数量==你CPU的数量 测试的函数不会报错

现在进行下多进程爬虫,以爬取糗事百科的段子为例:

定义爬取函数

我的CPU是4个 所以就开四个进程 你要不信你用个8个试试,一个进程爬取一个页面速率够快的 ,有人会问我要爬取20个页面怎么执行 那简单 一个进程对应5个页面看你前面定义函数逻辑怎么写

原文地址:https://www.cnblogs.com/woshiruge/p/8336187.html