Apache Nutch（二）

Apache Nutch（二）

Nutch Crawler工作流程：

Injector - 注入
Generator - 产生抓取列表
Fetcher - 从网上抓取网页
Parse Segment - 对抓取的网页进行解析
CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB
LinkDB invertlinks

在 2-5 步骤循环 topN 次，最后执行 5步骤。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/xuekyo/p/3031215.html