python爬虫Scrapy

　　Scrapy

1、python爬虫框架Scrapy

　　爬虫框架是实现爬虫功能的一个软件结构和功能组建集合

　　爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

2、scrapy爬虫框架“5+2”结构解析

　　2.1、Engine：框架核心，不需用户编写

　　2.2、Downloader：下载网页，不需用户修改

　　2.3、Scheduler：对爬虫请求进行调度管理，不需用户修改

　　2.4、Downloader Middleware：

　　　　目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制；

　　　　功能：修改、丢弃、新增请求或响应；

　　　　用户可以编写配置代码

　　2.5、Spider：解析Downloader返回的响应（Response）；产生爬取项（scraped item）；产生额外爬取请求（Request），

　　2.6、Item Pipelines：以流水线的形式处理Spider产生的爬取项；由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型；可能操作包括：清理、检查和查重爬取项中的HTML数据、将数据存储到数据库。

　　　　需要用户编写配置代码

　　2.7、Spider Middleware：

　　　　目的：对请求和爬取项再处理

　　　　功能：修改、丢弃、新增请求或爬取项

　　　　用户可以编写配置代码

3、requests库与Scrapy比较

4、Scrapy爬虫的常用命令

　　4.1、startproject：创建一个新工程　　scrapy startproject <name> [dir]

　　4.2、genspider：创建一个爬虫　　scrapy genspider [options] <name> <domain>

　　4.3、settings：获得爬虫配置信息　　scrapy settings [options]

　　4.4、crawl：运行一个爬虫　　scrapy crawl <spider>

　　4.5、list：列出工程中所有爬虫　　scrapy list

　　4.7、shell：启动URL调试命令行　　scrapy shell [url]