1、爬虫框架Scrapy比较好用,默认多线程,各模块分离。还可以用Requests+BeautifulSoup进行爬取。
2、反爬问题。添加header列表,IP地址池,每次爬取暂停一段时间。
3、Scrapy解析网页Xpath,比BeautifulSoup易读性强。
线程数量设置规则:
1. CPU密集型任务
一般配置线程数=CPU总核心数+1 (+1是为了利用等待空闲)
2. IO密集型任务
一般配置线程数=CPU总核心数 * 2 +1
1、爬虫框架Scrapy比较好用,默认多线程,各模块分离。还可以用Requests+BeautifulSoup进行爬取。
2、反爬问题。添加header列表,IP地址池,每次爬取暂停一段时间。
3、Scrapy解析网页Xpath,比BeautifulSoup易读性强。
线程数量设置规则:
1. CPU密集型任务
一般配置线程数=CPU总核心数+1 (+1是为了利用等待空闲)
2. IO密集型任务
一般配置线程数=CPU总核心数 * 2 +1