常用工具命令

全局命令

Scrapy 可执行文件命令说明：

主要用来显示爬虫爬取的工程。如图：

如果在项目目录之外执行命令，则会调用 Scrapy 默认的爬虫来进行网页的爬取。

可以通过 Fetch 附带的参数进行爬取相关的数据，如：

通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目，直接运行一个爬虫文件。

可以查看 Scrapy 对应的配置信息。

可以启动 Scrapy 的交互终端。

创建 Scrapy 项目。

查看 Scrapy 版本信息。

View 命令可以下载某个网页用浏览器查看的功能。

$ scrapy view http://news.163.com

执行命令后会打开默认浏览器并记录相关信息：

项目命令需要进入 Scrapy 创建的项目内部执行。

测试本地硬件的性能。

$ scrapy banch

使用 Genspider 创建 Scrapy 爬虫文件，这是一种迅速创建爬虫文件的方式。

查看模板：

$ scrapy genspider -l

使用 basic 模板创建一个项目：

查看 csvfeed 爬虫模板中的内容：

$ scrapy genspider -d csvfeed

实现对某个爬虫文件进行合同检查，这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)

$ scrapy check slzcc

通过 Crawl 可以启动某个爬虫。

$ scrapy crawl slzcc

列出当前可以使用的爬虫

$ scrapy list

使用 list 后，可以对爬虫文件进行编辑。

可以获取指定的 URL 网站。

$ scrapy parse http://www.baidu.com --nolog