scrapy的安装

python --version   2.7.12版本。

1) 首先在交互模式下测试系统是否安装lxml和OpenSSL

2) 安装lxml,apt-get install python-lxml,

  lxml是python中XML和HTML相关功能最丰富,最容易使用的一个库,

  lxml不是python自带的包,而是为libxml2h和libxslt库的一个python化的绑定。

3)安装OpenSSL,apt-get install python-openssl,

  openssl version  -a一般显示的是系统自带的那个openssl

  系统bin下自带的openssl,不能直接被python使用,需要再装这个python包,该版本是2.7版本。

4)安装python-dev和libevent

  python-dev是linux上开发python比较重要的工具,当需要安装一下源外的python库中,需要调用该包里的api的c/c++文件

        自己写的程序需要连接libpythonXX.(a|so)时,都需要安装这个包

  libevent是一个时间出发的高性能的网络库,很多框架的底层使用libevent。

  apt-get install python-dev

  apt-get install libevent-dev

  

5) 安装pip,python有两个著名的包管理工具,easy_install.py在2.7中是默认安装的,pip需要手动安装。

在使用pip和easy_install进行安装的时候,虚拟机的网络代理出现了问题,在terminal内连接不上pypi.python.org,所以通过

  浏览器下载下scrapy1.0.0的版本,python setup.py install进行安装,期间会有很多dependence的lib,都可以通过apt-get

  下载安装。

下一步:

1) 配置ssh,直接用git来clone github上的资源

2) 安装requests

3) https://www.zhihu.com/question/20899988

4) 学习lxml 库

5) 写一个简单的爬虫

原文地址:https://www.cnblogs.com/-9-8/p/8193293.html