命令行工具(2)

一 配置文件scrapy.cfg

1 全局配置文件路径  盘符: ... scrapyscrapy

2 项目配置文件

  

配置文件的优先级别: 用户定义的配置文件优先级别高于系统范围的默认值.

二 创建醒目的基本命令

scrapy startproject myproject #创建项目

cd myproject #进入项目根目录

scrapy genspider mydomain mydomain.com #创建爬虫文件

scrapy crawl mydomain  #启动爬虫文件

三 命令分类

全局命令

  • startproject  #创建项目
  • genspider    #创建爬虫文件
  • settings     #查看配置信息
  • runspider    #启动某爬虫文件
  • shell       #启动爬虫shell交互界面
  • fetch       #爬取某网页
  • view       #网页查看爬取数据
  • version     #查看爬虫版本

仅限项目的命令:

  • crawl   #启动爬虫文件
  • check   #爬虫语法检测        
  • list   #查看爬虫列表
  • edit   #编辑爬虫文件
  • parse  #解析某网页
  • bench  

四 用法示例

$ scrapy list #查看爬虫列表
spider1
spider2

$ scrapy edit spider1 #编辑爬虫文件


$ scrapy view http://www.example.com/some/page.html #网页打开请求页面源码

$ scrapy shell [url] #启动shell

$ scrapy parse http://www.example.com/ -c parse_item

$ scrapy settings --get DOWNLOAD_DELAY

$ scrapy runspider myspider.py  #启动指定爬虫文件

$ scrapy version [-v] #查看爬虫版本
原文地址:https://www.cnblogs.com/angle6-liu/p/10725284.html