scrapy-redis分布式

scrapy是python界出名的一个爬虫框架，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

虽然scrapy 能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘，有能人改变了 scrapy 的队列调度，将起始网址从 start_urls 里分离出来，改为从 redis 读取，多个客户段可以同时读取同一个redis，从而实现分布式爬虫。

（一）scrapy-redis安装

pip install scrapy-redis

（二） scrapy-redis 架构

（三）scrapy-redis 组建详细介绍

scrapy-redis 在 scrapy 的架构上增加了 redis，基于 redis 的特性拓展了如下四种组建：

1 Scheduler： scrapy 改造了 python 本来的collection。deque （双向队列）形成了自己的 scrapy queue，但是 Scrapy 多个 spider 不能共享待爬去对垒Scrap