爬虫教程-1

很久没来了，先贴一篇上个月的旧文。#最近争取每天中午更新一点，也算是复习笔记了，哭泣#

可能是我蠢，爬虫这块搞了好几天才写了这么一点点，先入门吧，之后再写复杂的。#可能是下个月了：）#

环境：VirtualBox，lubuntu。

1. 安装docker

https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

$ sudo apt-get update

$ sudo apt-get install

apt-transport-https

ca-certificates

curl

software-properties-common

$ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

$ sudo add-apt-repository

"deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu

$(lsb_release -cs)

stable"

$ sudo apt-get update

$ sudo apt-get install docker-ce

启动 Docker CE

$ sudo systemctl enable docker

$ sudo systemctl start docker

建立 docker 组：

$ sudo groupadd docker

将当前用户加入 docker 组：

$ sudo usermod -aG docker $USER

退出当前终端并重新登录，进行如下测试。

测试是否安装成功：

sudo docker run hello-world

2.安装Splash

https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

sudo docker pull scrapinghub/splash

sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。

3. 安装scrapy

sudo apt-get install python-dev

sudo apt-get install libevent-dev

sudo apt-get install libssl-dev

现在是万众瞩目的debug时间

fatal error: libxml/xmlversion.h: 没有那个文件或目录

ln -s /usr/include/libxml2/libxml /usr/include/libxml

fatal error: libxslt/xsltconfig.h: 没有那个文件或目录

sudo apt-get install libxslt-dev

sudo pip install scrapy

The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

sudo leafpad ~/.bashrc

export PATH=/usr/lib/pypy/../../local/bin:$PATH

source ~/.bashrc

下一篇，我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面，抓取的时候需要更注意，之后更新。