Scrapy爬虫(一):专题概要

Scrapy爬虫(一):专题概要

准备工作

在最近做的智能项目中,我们在获取到用户需求的文本后,需要对用户的行为意图进行分析,然后做出响应,比如语义解析、内容推荐、数据整合等。和windows小娜一样,需要对相关的垂直领域进行语义分析,比如视频、音乐、应用、天气、股票、新闻、网站等,因此需要通过获取网络上的价值数据来进行人工神经网络的训练。

而快到年末了,项目稍微有点紧张,如何快速的获取价值数据,使用爬虫爬取网络数据是最可行的方式,而使用python scrapy爬虫框架又是最流行的方式,主要因为scrapy上手快、容易扩展。

我以前并没有使用过爬虫,但是使用scrapy花费很小的学习代价,就完成了基础数据的获取,在这里我想要说的是,如果以项目为驱动的话,学习的效率将会更加高。

这期间也遇到一些坑,最后都一一解决了,因此将使用scrapy的一些经验记录下来,一是可以以后自己参考,二是可以帮助同样对scrapy爬虫感兴趣的朋友,也希望您提出宝贵的意见。

虽然scrapy容易学习,但是还是需要一些基础知识。

廖雪峰-Python入门
廖雪峰-Python教程
runoob-Python正则表达式

也可以看一下相关的视频,对学习爬虫有些宏观的认识。
Python开发简单爬虫
python正则表达式

另外还有一些用python的一些基础库实现爬虫的资源。
崔庆才的博客
知乎-如何入门Python 爬虫

对于新手的话可以自己尝试使用下面四个python库就可以实现一些常用的需求了。
1. 网页下载 urllib
2. 网页解析 BeautifulSoup
3. 网络请求 Requests
4. 动态网页 Selenium

自己可以通过这几个库结合网络上的实例学习,但是要用在项目中还需要做更多的工作,毕竟你是在造轮子。

专题概要

关于scrapy爬虫的学习,我将以一个系列记录,主要以scrapy爬虫入门为目标,结合原理、实例的方式,下面是将要介绍的内容,需要说明的是全系列将以python3作演示。

学习时的痛苦是暂时的 未学到的痛苦是终生的
原文地址:https://www.cnblogs.com/grimm/p/13884527.html