scrapy 原理,结构,基本命令,item,spider,selector简述

原理,结构,基本命令,item,spider,selector简述

原理

1)结构

 

 

2)运行流程

 

实操

1) scrapy命令:

注意先把python安装目录的scripts文件夹添加到环境变量

 

查看帮助

scrapy

scrapy <command> -h

 

创建项目

scrapy startproject 项目名

 

创建爬虫

scrapy genspider [-t template] <name> <domain>

 

运行爬虫

运行一个爬虫的基本命令:

scrapy crawl 爬虫名

-a spider的构造器传参数

-o表示写入文件,-t 表示以json格式输出

scrapy crawl test -o test.json -t json

 

查看可用爬虫

scrapy list

 

快捷爬取(不需要创建爬虫项目,爬取结果直接回送到命令行)

scrapy fetch <url>

 

 

2)项目结构功能

 

3)item.py定义数据model

 

4)spiders文件夹中的爬虫文件

name爬虫名,唯一

allowed_domains域名

start_urls起始url

parse函数——处理爬取到的response的函数

 

基本格式:

 

parse函数使用selector的格式:

 

parse函数使用selector并通过生成器返回多个结果:

 

 

5)selector

四种格式(即spider文件parse函数中response对象的四个可用方法)

 

response.xpath()

response.css()

response.extract()

response.re()

 

举例:response.xpath()使用

 

selector的嵌套

 

 

 

6)保存爬取结果的方式之一:Feed Exports

 

 

原文地址:https://www.cnblogs.com/zealousness/p/8748643.html