python之爬虫scrapy框架的搭建

一、爬虫与html的关系？

大家都知道，我们所浏览的网页，他们一个个的本质都是html界面。既然是html界面那么他们肯定是都有着自己的源码。所以说只要我们获取了任意网页的源码，那么就能够显示这样的界面，则表明，网页中所展示出的信息都包含在了html的源码的之中，那么我们就可以将其与爬虫相结合起来了，在html的界面上按照一定的规则取出我们想要的数据。

二、爬虫的scrapy框架的搭建

这个框架整整困扰了我五个小时，因为第一次接触python，上来直接就是爬虫，所以难免有点懵。

首先是

安装，如果出现下面这种情况就是安装成功了。

1、当然你也可能出现版本过低的情况，只需要按照提示输入升级版本就可以了，如下:

2、还有可能出现下面这种情况：

错误提示如下：

Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

根据在网上查询到的结果，scrapy是依赖于 Microsoft Visual C++ 14.0编译器，提示这个错误的原因，就是电脑没有安装上编译器。他会给你提示Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
但是这种是不建议的，这个编译器太大了，费时。

我找到更简单的方法是，直接下载一个Twisted，下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

这本身就是一个包。下载与你的python相对应的包，切记。下来只需要在cmd里运行pip install加上你下载的文件的路径。这是离线下载，最后还找到一种在线下载，这届输入pip install Twisted，不过这个方法我没有试过，有想法的可以尝试一下，

3、lxml包没有安装成功

同样可以去下载lxml包，依旧是上面那个网站。这是离线下载，以为我安的时候不知道为什么链接打不开了，所以我只能找其他的方法啊，最后终于被我找到，还有在线下载，直接在cmd中输入pip install lxml直接在线下载，比较方便，个人推荐。

最后次进行安装 pip install scrapy.

结束了。