Python爬虫 | 简介

什么是爬虫

  爬虫就是通过编写程序模拟浏览器上网,然后去互联网上爬取/获取数据的过程。

 

爬虫的分类

    - 通用爬虫:就是爬取互联网中的一整张页面内容。

    - 聚焦爬虫:根据指定的需求爬取页面中指定的局部内容

    - 增量式爬虫:用来检测网站数据更新的情况。只会爬取网站中最新更新出来的数据。

反爬虫门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。

反反爬虫爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。

 

robots.txt相关的网站会将可以爬取和不可以爬取的数据声明在该协议中。特点:防君子不防小人。

 

 

原文地址:https://www.cnblogs.com/Summer-skr--blog/p/11396251.html