【Rollo的Python之路】Python 爬虫系统学习 (九) Scrapy 构造下一页

Scrapy 实现翻页：

next_page_url = response.xpath("//a[text()='Next Page']/@href").extract()
while len(next_page_url) >0:
    yield scrapy.Request(
            next_page_url,
            callback = self.parse,
            meta = {“item”：item}
)

scrapy.Requests知识点：

scrapy.Requests(url,callback,method='GET',headers,body,cookies,meta,dont_filter=False)

callback:指定传入的URL交给哪个解析函数去处理，

meta:实现在不同的解析函数中传递数据，meta默认会携带部分信息，比如下载延迟，请深圳市深度等

dont_filter:让scrapy的去重不会过滤当前的url,scrapy默认有url去重功能，对需要重复请求的ulr有重要用途