利用scrapy框架进行爬虫

今天一个网友问爬虫知识，自己把许多小细节都忘了，很惭愧，所以这里写一下大概的步骤，主要是自己巩固一下知识，顺便复习一下。（scrapy框架有一个好处，就是可以爬取https的内容）

【爬取的是杨子晚报，这里就以此为例，创建scrapy爬虫网址：http://www.yangtse.com/】

第一步：安装scrapy框架

（这里不做详细介绍了，要是安装遇到问题的朋友们，可以参考下面链接

http://www.cnblogs.com/wj-1314/p/7856695.html）

第二步：创建scrapy爬虫文件

格式：scrapy startproject + 项目名称

scrapy startproject yangzi

第三步：进入爬虫文件

格式：cd 项目名称

cd yangzi

第四步：创建爬虫项目

格式：scrapy genspider -t basic 项目名称网址

具体用法如下：

Usage
=====
scrapy genspider [options] <name> <domain>

Generate new spider using pre-defined templates

Options
=======
--help, -h              show this help message and exit
--list, -l              List available templates
--edit, -e              Edit spider after creating it
--dump=TEMPLATE, -d TEMPLATE
                        Dump template to standard output
--template=TEMPLATE, -t TEMPLATE
                        Uses a custom template.
--force                 If the spider already exists, overwrite it with the
                        template

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

scrapy genspider -t basic yz http://www.yangtse.com/

创建好了，如下图：

解释一下文件：

scrapy.cfg:项目的配置文件
yangzi:该项目的python模块。之后您将在此加入代码。
yangzi/items.py:项目中的item文件。
yangzi/pipelines.py:项目中的pipelines文件。
yangzi/yz/：放置spider代码的目录。

第五步：进入爬虫项目中，先写items

写这个的目的就是告诉项目，你要爬去什么东西，比如标题，链接，作者等.

    Item是保存爬取到的数据的容器：其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
   类似在ORM中做的一样，你可以通过创建一个scrapy.Item类，并且定义类型为scrapy.Field的类属性来定义一个Item。
   首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。

以我写的为例，我想爬取标题，链接，内容，如下：

class YangziItem(scrapy.Item):
    # define the fields for your item here like:
    #标题
    title = scrapy.Field()
    #链接
    link =  scrapy.Field()
    #内容
    text =  scrapy.Field()

第六步：进入pipelines，设置相应程序

分析爬去的网站，依次爬取的东西，因为pipelines是进行后续处理的，比如把数据写入MySQL,或者写入本地文档啊等等，就在pipelies里面写。这里直接输出，不做数据库的导入处理

class YangziPipeline(object):
    def process_item(self, item, spider):
        print(item["title"])
        print(item["link"])
        return item

第七步：再写自己创建的爬虫

（其实，爬虫和pipelines和settings前后顺序可以颠倒，这个不重要，但是一定要先写items）

     Spider是用户编写用于从单个网站（或者一些网站）爬取数据的类。
     其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容，提取生成item的方法。
   为了创建一个Spider,您必须继承scrapy.Spider类，且定义以下三个属性：

name:用于区别Spider。改名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
start_urls:包含了Spider在启动时进行爬取的url列表。因此，第一个被获取的页面给将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse():是spider的一个方法。被调用时，每个初始url完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据（response data）,提取数据（生成item）以及生成需要进一步处理的URL的Request对象。

进入爬虫后，先导入items

接下来需要创建一个ITEM容器，

 it = YangziItem()

然后写自己的要爬去的内容，分析网页后,利用xpath写

   def parse(self, response):
        it = YangziItem()
        it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract()
        it["link"] = response.xpath('//a[@target="_blank"]/@href').extract()
        #it["text"] = response.xpath().extract()
        yield it

第八步：设置settings

在settings中配置pipelines（ctrl+f 找到pipelines，然后解除那三行的注释，大约在64-68行之间），如下图

第九步：运行爬虫文件

scrapy crawl yz
scrapy crawl yz --nolog    #不想显示日志文件