Scrapy: 初识Scrapy

1.初识Scrapy

Scrapy是为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或者存储历史数据等一系列的程序中。

2.选择一个网站

当需要从某个网站获取信息时，但该网站未提供API或者能通过程序获取信息的机制时，Scapy可以助你一臂之力。

3.定义想抓去的数据

在Scrapy中，通过Scrapy Items来完成的

import scrapy

　　 class Torrent(scrapy.Item):

　　　　url=scrapy.Field()

　　　　name=scrapy.Field()

　　　　description=scrapy.Field()

　　　　size=scrapy.Field()

4.编写提取数据的Spider

编写一个spider来定义初始URL，针对后续链接的规则以及从页面中提取数据的规则

使用XPath来从页面的HTML源码中选择需要提取的数据

结合自己的内容给出spider代码，eg：

5.执行spider,获取数据

运行spider来获取网站的数据，并以JSON格式存入到文件中：

scrapy crawl mininova -o scraped_data.json

命令中使用了feed导出来导出JSON文件，可以修改到处格式或者存储后端，同时也可以编写管道将item存储到数据库中。

6.查看提取到数据

执行结束后，查看scraped_data.json,将看到提取到的item

7.还有什么？