scrapy

scrapy startproject myproject #创建项目

scrapy genspider mydomain mydomain.com #创建spider

scrapy crawl myspider #使用spider进行爬取

scrapy list #列出当前项目中所有可用的spider

Spider类
并没有提供什么特殊的功能。其仅仅请求给定的 start_urls/start_requests ，
并根据返回的结果(resulting responses)调用spider的 parse 方法。

Selectors
构建于 lxml 库之上
.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表
response.xpath('//title/text()').extract()
response.css('title::text').extract()

pipelines
用来存储数据