nutch-1.7 编译

转载自:http://peigang.iteye.com/blog/1563288

从nutch-1.3开始 本地抓取(单击) 和 分布式抓取(集群)所使用的配置文件和命令单独分开。

资源:
下载地址:http://archive.apache.org/dist/nutch/1.7/
apache-nutch-1.7-bin.tar  这个是部署的可执行的
apache-nutch-1.7-src.tar  这个用于导入eclipse进行开发

Ant 后会生成两个文件夹
apache-nutch-1.7uild
apache-nutch-1.7 untime


buildapache-nutch-1.7.jar
buildapache-nutch-1.7.job
apache-nutch-1.7 untime
复制到apache-nutch-1.7-bin.tar解压出来的文件夹。


运行的命令:
单机:runtime/local/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
集群: runtime/deploy/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100

异常:
依然会Job failed!

解决方案:
修改 apache-nutch-1.7 untimelocalconf utch-default.xml
apache-nutch-1.7 untimelocalplugins
类似之前1.2版本的 job failed ,只是这次修改的是local下的单机版专用的conf文件

存储位置:
http://10.0.0.75/newSvn/Search/CrawlerEngine/Platform/Distribute/nutch/Codes/branches/apache-nutch-1.7.rar
原文地址:https://www.cnblogs.com/i80386/p/3229603.html