爬虫

一、什么是爬虫？

　　爬虫：一段从互联网上自动爬取对我们有价值的数据的程序

二、Python爬虫架构

Python爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取有价值信息的程序）

　　调度器：相当于一台电脑的CPU，主要负责调度 URL 管理器、下载器、解析器之间的协调工作

　　URL 管理器：包括待爬取的URL地址和一爬取的URL地址，防止重复爬取和循环抓取 URL，实现 URL 管理器主要使用单中方式：内存、数据库、缓存数据库来实现

　　网页下载器：通过传入一个 URL 来下载网页，将网页转换成一个字符串，网页下载器有 urllib2（python官方基础模块）包括需要登录、代理、和cookie、requests（三方包）

　　网页解析器：将一个网页字符串惊醒解析，可以按照我们的要求来提取出我们有用的信息，也可以根据 DOM树的解析方式来解析，网页解析器有正则表达式（直观，将网页转换成字符串通过模糊匹配的方式类提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常困难），html.parser(Python自带的)，beautifulSoup（第三方插件）、lxml（第三方插件，解析 Xml 和 HTML），都是以DOM树的方式进行解析

　　应用程序：就是从网页中提取有用数据组成的一个应用