爬虫项目总结

1、爬虫框架Scrapy比较好用,默认多线程,各模块分离。还可以用Requests+BeautifulSoup进行爬取。

2、反爬问题。添加header列表,IP地址池,每次爬取暂停一段时间。

3、Scrapy解析网页Xpath,比BeautifulSoup易读性强。

线程数量设置规则:

1. CPU密集型任务

一般配置线程数=CPU总核心数+1    (+1是为了利用等待空闲)

2. IO密集型任务

一般配置线程数=CPU总核心数 * 2 +1

原文地址:https://www.cnblogs.com/kingshine007/p/11375881.html