Scrapy爬虫(二):爬虫简介

Scrapy爬虫(二):爬虫简介

什么是爬虫?

爬虫的本质就是将互联网网页(数据)下载下来的程序。
爬虫通常为PC端爬虫、以及移动端爬虫(接口数据窃取 抓包 wap站),当然我们更多的是使用PC端的爬虫。
如下图可以看出爬虫相对于人浏览网页的不同,可以在脑袋里有个简单的概念。

通过对互联网无数个url数据的下载,url之间可能又有关联,于是形成了犹如蜘蛛网状的结构,而爬虫就守在这张大网之上,因此我们通常又将爬虫成为蜘蛛。

爬虫的价值?

列几个简单的例子,看看就行

  • 搜索引擎
  • 今日头条
  • 比价网
  • 大数据

最简单的python爬虫

urllib库 基于python3.5

# encoding:UTF-8
import urllib.request


def download_data():
    url = "http://www.baidu.com"

    response = urllib.request.urlopen(url)
    print(response.getcode())
    if response.getcode() == 200:
        print(response.read())


download_data()

运行结果如下

可以看出爬虫下载都是网页源码。

爬虫基本架构

由上图可以看出爬虫一般由爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储这几个模块组成。
爬虫调度器主要是对url管理器、网页下载器网页解析器进行管理。
URL管理器主要通过初始url及网页解析器获得的url进行存储管理,并为调度器提供接口,为网页下载器提供下载入口。
网页下载器主要功能就是下载该url下的网页数据(源码)
网页解析器一方面解析出我们需要的价值数据,一方面又将网页下载器下载数据中的url存储到url管理器中。
数据存储是将网页解析器的解析的价值数据存储到内存、数据库、文件等。

scrapy环境配置

本处只介绍ubuntu下scrapy的环境配置,其它环境下学习的话请自行配置,要求大概都是这样的。

  • 安装更新python

ubuntu16.04自带python2.7.11+、3.5.1+
执行如下命令更新就可

sudo apt-get update
sudo apt-get upgrade
  • 安装pycharm

下载http://www.jetbrains.com/pycharm/download/
解包

sudo -zxvf pycharm-professional-2016.2.3.tar.gz

安装

sudo sh /pycharm-professional-2016.2.3/bin/pycharm.sh

快捷方式

把/usr/share/applications/Pychram用鼠标拖出来就可
  • 1
  • 更新pip
sudo pip install --upgrade pip
  • 1

pip更新有问题时,执行如下命令在更新pip就可

sudo rm -rf ~/.pip/cache/
sudo rm -rf /root/.pip/cache
  • 1
  • 2
  • 安装scrapy
pip install --upgrade Twisted
  • 1
sudo apt-get install libssl-dev
  • 1
pip install Scrapy
  • 1

慕课网教程
urllib爬虫例子


学习时的痛苦是暂时的 未学到的痛苦是终生的
原文地址:https://www.cnblogs.com/grimm/p/13884536.html