爬虫教程-1

很久没来了,先贴一篇上个月的旧文。#最近争取每天中午更新一点,也算是复习笔记了,哭泣#

可能是我蠢,爬虫这块搞了好几天才写了这么一点点,先入门吧,之后再写复杂的。#可能是下个月了:)#


环境:VirtualBox,lubuntu。

1. 安装docker

https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

$ sudo apt-get update

$ sudo apt-get install

    apt-transport-https

    ca-certificates

    curl

    software-properties-common

$ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

$ sudo add-apt-repository

    "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu

    $(lsb_release -cs)

    stable"

$ sudo apt-get update

$ sudo apt-get install docker-ce

 

启动 Docker CE

$ sudo systemctl enable docker

$ sudo systemctl start docker

 

建立 docker 组:

$ sudo groupadd docker

将当前用户加入 docker 组:

$ sudo usermod -aG docker $USER

退出当前终端并重新登录,进行如下测试。

测试是否安装成功:

sudo docker run hello-world

 

2.安装Splash

https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

 

sudo docker pull scrapinghub/splash

sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

现在可以通过0.0.0.0:8050(http),8051(https),5023 (telnet)来访问Splash了。

 

3. 安装scrapy

sudo apt-get install python-dev

sudo apt-get install libevent-dev

sudo apt-get install libssl-dev

 

现在是万众瞩目的debug时间

 

fatal error: libxml/xmlversion.h: 没有那个文件或目录

ln -s /usr/include/libxml2/libxml /usr/include/libxml

 

fatal error: libxslt/xsltconfig.h: 没有那个文件或目录

sudo apt-get install libxslt-dev

 

sudo pip install scrapy

 

The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

sudo leafpad ~/.bashrc

export PATH=/usr/lib/pypy/../../local/bin:$PATH

source ~/.bashrc

 

下一篇,我会更新爬虫抓取静态页面的例子。而使用javascript的动态页面,抓取的时候需要更注意,之后更新。

 

原文地址:https://www.cnblogs.com/pxy7896/p/9814643.html