scrapy_全站爬取

如何查询scrapy有哪些模版？

scrapy genspider –list

如何创建crawl模版？

scrapy genspider -t crawl 域名

scrapy genspider -t crawl i.cnblogs.com

如何把搜索目录加入到环境变量？

setting：

import os
import sys

BASE_DIR = os.path.dirname(os.path.dirname(os.abspath(__file__)))
sys.path.append(BASE_DIR)

全站爬取和普通爬虫有什么区别？

　　1. 继承不同，普通继承：scrapy.Spider，全站继承：CrawlSpider

　　2. 爬取策略不同，普通是指定url方向爬取，全站是爬取全站取出指定url进行解析

　　3. 由于爬虫策略不同，全站爬取相比较普通爬虫而言，多了个url筛选

什么是link_ectractor？

url过滤和抽取，有一下几个参数，对满足条件的url进行解析

　　　　callback 　　　　　　　　　　回调函数

　　　　cb_kwargs 　　　　　　　　　传给link_ectractor 的参数

　　　　follow 　　　　　　　　　　　满足这个类型的URL是否进行跟踪

　　　　preocess_links　　　　　　　对url加入预处理函数

　　allow = 正则　　　　　　满足正则表达式的，才进行数据爬取

　　 deny 　　　　　　　　　　　和 allow相反

　　allow_domains = [] 　　　　在此域名下爬取

　　 deny_allow 　　　　　　　　和 allow_domains 相反

　　restrict_xpaths 　　　　　　　进一步限定爬取的页面区域

　　restrict_css=()　　　　　　　　进一步限定爬取的页面区域