爬虫项目总结

爬虫项目总结

1、爬虫框架Scrapy比较好用，默认多线程，各模块分离。还可以用Requests+BeautifulSoup进行爬取。

2、反爬问题。添加header列表，IP地址池，每次爬取暂停一段时间。

3、Scrapy解析网页Xpath，比BeautifulSoup易读性强。

线程数量设置规则：

1. CPU密集型任务

一般配置线程数=CPU总核心数+1 (+1是为了利用等待空闲)

2. IO密集型任务

一般配置线程数=CPU总核心数 * 2 +1

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/kingshine007/p/11375881.html