nutch1.5 linux下的安装

主要参考源 http://wiki.apache.org/nutch/NutchTutorial

第一部分:安装

1 建目录,下载,解压

mkdir nutch
wget "http://mirror.bjtu.edu.cn/apache/nutch/1.5/apache-nutch-1.5-bin.tar.gz"
tar zxvf apache-nutch-1.5-bin.tar.gz -C /root/wqj/nutch

2 测试,及赋予权限
bin/nutch
Permission denied
chmod +x bin/nutch



如果出现上图,则证明nutch1.5安装成功了

第二部分:启动简单配置的爬虫

1 添加种子

mkdir -p urls
cd urls
vim seed.txt
2 添加名称conf/nutch-site.xml

 vim conf/nutch-site.xml

3修改过滤器

vim  conf/regex-urlfilter.txt
将
# accept anything else
+.
替换为
+^http://([a-z0-9]*\.)*nutch.apache.org/

4 启动爬虫

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

爬虫启动成功~

原文地址:https://www.cnblogs.com/i80386/p/2659900.html