【Python】Scrapy基础

一、Scrapy 架构

Engine（引擎）：负责 Spider（爬虫）、Item Pipeline（管道）、Downloader（下载器）、Scheduler（调度器）中的通讯和数据传递。
Scheduler：接受 Engine 发送过来的 Request 请求，按照一定方式入队，再交给 Downloader 下载。可实现去重。Scheduler 的请求队列为空时，程序才会终止。
Downloader：下载 Engine 发送（中间通过Scheduler）的所有 Requests 请求，并将其获取到的 Responses 交还给 Engine，由 Engine 交给 Spider 处理。
Spider：处理所有 Responses ①提取 Item 字段需要的数据，交给 Pipeline 存储 ②将需要跟进的 URL 提交给 Engine，再进入 Scheduler。
Item Pipeline：负责处理 Spider 提取到的 Item，并进行后期处理，例如分析过滤数据，按自己定制的格式保存到 json、数据库等。
Downloader Middlewares：自定义扩展下载功能，例如给每个 Request 加代理、User-Agent 等。
Spider Middlewares：自定义扩展 Engine 和 Spider 中间的通信，例如进入 Spider 的 Responses、从 Spider 出去的Requests。用处不大，大部分爬虫功能在 Spider 里实现。

二、Scrapy 安装

1、Windows

2、Linux

安装非 python 依赖：sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
sudo pip install scrapy

三、官方文档

四、