nutch2.2.1+ hadoop1.2.1 + mysql5.6.13

1、首先搭建好hadoop环境，具体过程不详细说了，网上的教程很多。

2、下载nutch，在其目录下面运行ant，将会产生runtime目录。然后配置nutch-site.xml等文件，可以参考http://wiki.apache.org/nutch/NutchHadoopTutorial。

注意的是runtime下面有一个local目录和一个deploy目录，一般博客写的都是在local目录下面运行的，这个是单机运行。而deploy目录下面运行是分布式运行。

3、nutch连接数据库mysql。只是需要修改几个配置文件即可，还要注意编码问题。

4、分布式下面运行nutch。是在deploy目录下面运行hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5。我当时参考上面这个英文的文档运行，遇到了很多问题，首先，文档中的命令是有问题的。一直报错不能找到org.apache.nutch.crawl.Crawl这个类。我把classPath都配置了，还是不行，后来一看src下面是org.apache.nutch.crawl.Crawler。

5、后来又出现了各种mysql的问题。在默认情况下mysql是不允许远程访问的。参考这个博客http://www.blogjava.net/yongboy/archive/2009/09/01/293481.html

当然其中还有各种问题，有些可能忘记了。