scrapy知识补充--scrapy shell 及Spider

什么是scrapy shell?

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试xpath或css表达是，来查看他们的工作方式，方便爬取页面中的数据。

Selecctor有四个基本方法，最常用的还是xpath:

Spider类定义了如何爬取某个（某些）网站。包括爬取动作（例如：是否跟进链接）以及如何从昂也中提取结构化数据（爬取的item）。换句话说，spider就是已经定义的爬取动作以及分析某个网页的地方。

主要属性和方法：

name:定义spider名字的字符串。例如，如果spider爬取website.com,该spider通常会被命名为website

allowed_domains:包含了允许爬取的域名（domain）的列表，可选。

start_url：初始URL的元祖或列表。当没有给定特定的url时，spider将从该列表中开始进行爬取。

start_requests(self):该方法返回一个可迭代对象（iterable）。该对象包含了spider用于爬取（默认实现是用start_url中的url）的第一个Request。

parse(self, response):当请求url返回网页没有指定回调函数时，默认的Request对象回调函数。用来处理网页返回的response，以及生成的item或Request对象。

参见：