爬虫概述

1.什么是爬虫

  通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程

2.爬虫的分类:

  通用爬虫:爬取一整张页面源码数据

  聚焦爬虫:爬取页面中指定的局部数据

  增量式爬虫:检测网站数据更新的情况,爬取的就是网站中最新更新出来的数据。

3.反爬机制:

  (1)第一个反爬机制

    robots.txt协议(防君子不防小人),规定爬虫工作者那些数据可以爬取哪些不可以

原文地址:https://www.cnblogs.com/guchenxu/p/11005983.html