【Rollo的Python之路】Python 爬虫系统学习 (九) Scrapy 构造下一页

Scrapy 实现翻页:

next_page_url = response.xpath("//a[text()='Next Page']/@href").extract()
while len(next_page_url) >0:
    yield scrapy.Request(
            next_page_url,
            callback = self.parse,
            meta = {“item”:item}
)        

scrapy.Requests知识点:

scrapy.Requests(url,callback,method='GET',headers,body,cookies,meta,dont_filter=False)

callback:指定传入的URL交给哪个解析函数去处理,

meta:实现在不同的解析函数中传递数据,meta默认会携带部分信息,比如下载延迟,请深圳市深度等

dont_filter:让scrapy的去重不会过滤当前的url,scrapy默认有url去重功能,对需要重复请求的ulr有重要用途

原文地址:https://www.cnblogs.com/rollost/p/11222826.html