scrapy 简单操作

1、创建一个简单的scrapy项目   

scrapy startproject search(项目名称)
按照提示
cd search
scrapy genspider serachname search.com

生成的项目结构如下:

searchname.py :

1、一种方式,入口为 start_urls =[] 

2、另外一种方式,重写start_requests, 这里yield出去一个Request, 且不带callback参数,则默认回调parse方法

可以yield  request, 可以yield item, 也可以yield {‘’:‘’} dict类型数据到管道中,在管道中进行处理 

如果需要入库或者进行抓取的数据,可以记录到item中去,进行后续的处理。

在item中进行各种类型的数据定义,比较简单;并引入到spider中去使用

pipelines.py 




原文地址:https://www.cnblogs.com/yingchen/p/8452994.html