爬虫

一、什么是爬虫?

  爬虫:一段从互联网上自动爬取对我们有价值的数据的程序

二、Python爬虫架构

Python爬虫架构主要由五个部分组成,分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序(爬取有价值信息的程序)

  调度器:相当于一台电脑的CPU,主要负责调度 URL 管理器、下载器、解析器之间的协调工作

  URL 管理器:包括待爬取的URL地址和一爬取的URL地址,防止重复爬取和循环抓取 URL,实现 URL 管理器主要使用单中方式:内存、数据库、缓存数据库来实现

  网页下载器:通过传入一个 URL 来下载网页,将网页转换成一个字符串,网页下载器有 urllib2(python官方基础模块)包括需要登录、代理、和cookie、requests(三方包)

  网页解析器:将一个网页字符串惊醒解析,可以按照我们的要求来提取出我们有用的信息,也可以根据 DOM树的解析方式来解析,网页解析器有正则表达式(直观,将网页转换成字符串通过模糊匹配的方式类提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常困难),html.parser(Python自带的),beautifulSoup(第三方插件)、lxml(第三方插件,解析 Xml 和 HTML),都是以DOM树的方式进行解析

  应用程序:就是从网页中提取有用数据组成的一个应用

原文地址:https://www.cnblogs.com/jcjc/p/11124628.html