Scrapy爬虫(一)：专题概要

准备工作

在最近做的智能项目中，我们在获取到用户需求的文本后，需要对用户的行为意图进行分析，然后做出响应，比如语义解析、内容推荐、数据整合等。和windows小娜一样，需要对相关的垂直领域进行语义分析，比如视频、音乐、应用、天气、股票、新闻、网站等，因此需要通过获取网络上的价值数据来进行人工神经网络的训练。

而快到年末了，项目稍微有点紧张，如何快速的获取价值数据，使用爬虫爬取网络数据是最可行的方式，而使用python scrapy爬虫框架又是最流行的方式，主要因为scrapy上手快、容易扩展。

我以前并没有使用过爬虫，但是使用scrapy花费很小的学习代价，就完成了基础数据的获取，在这里我想要说的是，如果以项目为驱动的话，学习的效率将会更加高。

这期间也遇到一些坑，最后都一一解决了，因此将使用scrapy的一些经验记录下来，一是可以以后自己参考，二是可以帮助同样对scrapy爬虫感兴趣的朋友，也希望您提出宝贵的意见。

虽然scrapy容易学习，但是还是需要一些基础知识。

也可以看一下相关的视频，对学习爬虫有些宏观的认识。
Python开发简单爬虫
 python正则表达式

另外还有一些用python的一些基础库实现爬虫的资源。
崔庆才的博客
 知乎-如何入门Python 爬虫

对于新手的话可以自己尝试使用下面四个python库就可以实现一些常用的需求了。
1. 网页下载 urllib
2. 网页解析 BeautifulSoup
3. 网络请求 Requests
4. 动态网页 Selenium

自己可以通过这几个库结合网络上的实例学习，但是要用在项目中还需要做更多的工作，毕竟你是在造轮子。

关于scrapy爬虫的学习，我将以一个系列记录，主要以scrapy爬虫入门为目标，结合原理、实例的方式，下面是将要介绍的内容，需要说明的是全系列将以python3作演示。

学习时的痛苦是暂时的未学到的痛苦是终生的