scrapy

rapy的安装：pip install scrapy

创建scrapy的项目: scrapy startproject myspider

创建scrapy爬虫：在项目目录下执行 scrapy genspider itcast itcast.cn

运行scrapy爬虫：在项目目录下执行 scrapy crawl itcast -o a.json/a.jl(一行，没有中括号)

检查代码: scrapy check

查看当前查重列表:scrapy list

保存打开:scrapy view 网址

pip:设置数据库，数据处理，清洗，去重

midd:修改状态码，异常处理，改写请求，重新发起请求

解析并获取scrapy爬虫中的数据：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法

extract() 返回一个包含有字符串的列表

extract_first() 返回列表中的第一个字符串，列表为空没有返回None

scrapy管道的基本使用:

完善pipelines.py中的process_item函数

在settings.py中设置开启pipeline

scrapy.Request(url[,callback,method="GET",headers,body,cookies,
meta,dont_filter=False])

中括号中的参数为可选参数
callback：表示当前的url的响应交给哪个函数去处理
meta：实现数据在不同的解析函数中传递，meta默认带有部分数据，比如下载延迟，请求深度等
dont_filter:默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求，对需要重复请求的url地址可以把它设置为Ture，比如贴吧的翻页请求，页面的数据总是在变化;start_urls中的地址会被反复请求，否则程序不会启动
method：指定POST或GET请求
headers：接收一个字典，其中不包括cookies
cookies：接收一个字典，专门放置cookies
body：接收一个字典，为POST的数据

Scrapy设置Settings

见:https://www.jianshu.com/p/df9c0d1e9087