爬虫学习（一）基础知识

爬虫学习（一）基础知识

一、爬虫介绍

1、概念：爬虫就是模拟客户端发送网络请求，获取请求响应数据，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上爬虫都能够做。

2、使用场景：主要用途是数据采集，爬虫是一种获取数据的重要手段。获取到数据后的用途主要有两个方面：进行数据分析或直接展示（比如百度新闻，就是从其他网站采集数据，然后展示）。

二、爬虫的分类

按照爬取范围分为两类：

通用爬虫：它将爬取对象从一些种子URL扩充到整个Web上的网站，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。这类爬虫爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。
聚焦爬虫：选择性地爬取那些与预先定义好的主题相关的页面。与通用爬虫不同的是，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好的满足一些特定人群对特定领域信息的需求。

三、爬虫的工作流程

1、搜索引擎流程（通用爬虫）：

爬取范围：整个网络，见到URL就爬
保存数据：保存的是原始的HTML
预处理：主要是分词，排名

2、聚焦爬虫流程：

爬取范围：特定的URL，只有有需要的数据的URL才爬取。
保存的数据：保存的是需要的数据。

3、Robots协议

全称是网络爬虫排除标准，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，是一个道德层面的约定，爬虫开发者尊不遵守完全看自己意愿。

通常该协议文件会放置在网站的根目录下，比如淘宝网站的Robots文件在：https://www.taobao.com/robots.txt

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/chjxbt/p/11358865.html