scrapy_全站爬取

如何查询scrapy有哪些模版?

scrapy genspider –list

如何创建crawl模版?

       scrapy genspider -t crawl 域名

scrapy genspider -t crawl i.cnblogs.com

如何把搜索目录加入到环境变量?

       setting:

import os
import sys

BASE_DIR = os.path.dirname(os.path.dirname(os.abspath(__file__)))
sys.path.append(BASE_DIR)

全站爬取和普通爬虫有什么区别?

  1. 继承不同,普通继承:scrapy.Spider,全站继承:CrawlSpider

  2. 爬取策略不同,普通是指定url方向爬取,全站是爬取全站取出指定url进行解析

  3. 由于爬虫策略不同,全站爬取相比较普通爬虫而言,多了个url筛选

什么是link_ectractor?

       url过滤和抽取,有一下几个参数,对满足条件的url进行解析

    callback           回调函数

    cb_kwargs          传给link_ectractor 的参数

    follow            满足这个类型的URL是否进行跟踪

    preocess_links        对url加入预处理 函数

         allow = 正则               满足正则表达式的,才进行数据爬取

         deny               和 allow相反

         allow_domains = []          在此域名下爬取

         deny_allow            和 allow_domains 相反

         restrict_xpaths         进一步限定爬取的页面区域

         restrict_css=()         进一步限定爬取的页面区域

原文地址:https://www.cnblogs.com/2bjiujiu/p/7367665.html