简单了解下四种爬虫类型

了解一下,爬虫可以分为以下四种类型:

  • 聚焦网络爬虫(主题网络爬虫): 会针对某种特定的内容去爬取信息,且会保证信息和需求尽可能相关。
  • 通用爬虫(全网爬虫):广度优先策略或深度优先策略  

  获取url,根据url爬页面后获取新url,在根据新url获取新新url,满足条件时停止爬取。

  • 增量抓取:通过爬虫程序检测某网站数据更新情况,一遍可以爬取到该网站更新后的新数据。
  • 适用场景--目标网站在原有网页数据基础上更新一批数据
  • 表层网页:不需要提交表单,适用静态链接访问的静态页面。
  • 深层网页:不能通过静态链接直接获取,需要提交一定的关键词后才能获取到的页面。  

参考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag

原文地址:https://www.cnblogs.com/smallzhen/p/14552878.html