网络爬虫类型

一:通用网络爬虫:
(1).从种子url爬取扩展到整个Web页面。

(2).这类网络爬虫爬取的范围巨大,爬取的数量巨大,对爬取速度和存储空间要求比较高,一般采用并行工作的方式。但是需要较长的时间才可以刷新页面。

(3).通用网络爬虫结构致页面爬行模块 、页面析模块、链接滤模块、页面数据库、URL 队列、初始 URL 集合几部分。

(4).通用网络爬虫采取定爬行策略 用爬行策略:深度优先策略、广度优先策略
二:聚焦网络爬虫:
(1).主题网络爬虫(Topical Crawler)指选择性爬行些与预先定义主题相关页面网络爬虫 。

(2).聚焦爬虫需要爬行与主题相关页面极节省硬件网络资源保存页面由于数量少更新快满足些特定群特定领域信息需求。
(3).基于内容评价爬行策略:Fish Search 算法:根据用户输入查询词作主题包含查询词页面视与主题相关其局限性于评价页面与主题相关度高低。 
   基于链接结构评价爬行策略 :PageRank 算法:查询结进行排序,具体做法就是每次选择 PageRank 值较大页面链接来访问 。
   基于增强习爬行策略搜索:Rennie  McCallum 增强习引入聚焦爬虫利用贝叶斯类器根据整网页文本链接文本超链接进行类每链接计算重要性决定链接访问顺序。
   基于语境图爬行策略:Diligenti 等提种通建立语境图(Context Graphs):该爬虫主题定义既采用关键词加权矢量组具相同主题网页 。

三:增量式网络爬虫:
    指已下载网页采取增量式更新爬行新产或者已经发变化网页爬虫能够定程度保证所爬行页面尽能新页面。
    增量式爬虫两目标:保持本页面集存储页面新页面提高本页面集页面质量。

四:Deep Web 爬虫
  爬行控制器、解析器、表单析器、表单处理器、响应析器、LVS 控制器)两爬虫内部数据结构(URL 列表、LVS 表)
  Deep Web 爬虫爬行程重要部表单填写。



 
 
 


原文地址:https://www.cnblogs.com/mvc-ef/p/8017800.html