scrapy-redis(迁移)

1.请求对象的持久化

2.去重指纹的永久化

所有请求对象、去重指纹均存储在redis中,而不是在内存中,断电/关机即消失,如果第一次请求未完成,第二次需要重新请求全部。

3.实现分布式

所有的服务器公用一个redis中的request对象

流程图:

scrapy_redis的流程

在项目中settings.py中配置:

RedisPipeline:配置所请求的数据存储在redis中,

RFPDupeFilter:配置指纹存储在redis中,

Scheduler:配置调度器,所有request对象存储在redis中

  • RedisPipeline

    redis中数据以列表存储

  • RFPDupeFilter

原文地址:https://www.cnblogs.com/justaman/p/11219457.html