很久没来了,先贴一篇上个月的旧文。#最近争取每天中午更新一点,也算是复习笔记了,哭泣#
可能是我蠢,爬虫这块搞了好几天才写了这么一点点,先入门吧,之后再写复杂的。#可能是下个月了:)#
环境:VirtualBox,lubuntu。
1. 安装docker
https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-
$ sudo apt-get update
$ sudo apt-get install
apt-transport-https
ca-certificates
curl
software-properties-common
$ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
$ sudo add-apt-repository
"deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu
$(lsb_release -cs)
stable"
$ sudo apt-get update
$ sudo apt-get install docker-ce
启动 Docker CE
$ sudo systemctl enable docker
$ sudo systemctl start docker
建立 docker 组:
$ sudo groupadd docker
将当前用户加入 docker 组:
$ sudo usermod -aG docker $USER
退出当前终端并重新登录,进行如下测试。
测试是否安装成功:
sudo docker run hello-world
2.安装Splash
https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html
sudo docker pull scrapinghub/splash
sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash
现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。
3. 安装scrapy
sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev
现在是万众瞩目的debug时间
fatal error: libxml/xmlversion.h: 没有那个文件或目录
ln -s /usr/include/libxml2/libxml /usr/include/libxml
fatal error: libxslt/xsltconfig.h: 没有那个文件或目录
sudo apt-get install libxslt-dev
sudo pip install scrapy
The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.
sudo leafpad ~/.bashrc
export PATH=/usr/lib/pypy/../../local/bin:$PATH
source ~/.bashrc
下一篇,我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面,抓取的时候需要更注意,之后更新。