原理，结构，基本命令，item，spider，selector简述

原理

（1）结构

（2）运行流程

实操

（1） scrapy命令：

注意先把python安装目录的scripts文件夹添加到环境变量

查看帮助

scrapy

scrapy <command> -h

创建项目

scrapy startproject 项目名

创建爬虫

scrapy genspider [-t template] <name> <domain>

运行爬虫

运行一个爬虫的基本命令：

scrapy crawl 爬虫名

-a 给spider的构造器传参数

-o表示写入文件，-t 表示以json格式输出

scrapy crawl test -o test.json -t json

查看可用爬虫

scrapy list

快捷爬取（不需要创建爬虫项目，爬取结果直接回送到命令行）

scrapy fetch <url>

name爬虫名，唯一

allowed_domains域名

start_urls起始url

parse函数——处理爬取到的response的函数

基本格式：

parse函数使用selector的格式：

parse函数使用selector并通过生成器返回多个结果：

response.xpath()

response.css()

response.extract()

举例：response.xpath()使用