Ubuntu 11.10 下使用hadoop0.20.203.0

主要参考: http://hadoop.apache.org/docs/r0.20.0/quickstart.html

其中，JAVA_HOME设置的为/usr/lib/jvm/java-6-sun ，这个为本机java的路径，可以将java-6-openjdk改为这个，命令：update-java-alternatives -s java-6-sun

单台操作

这个模式是在一个java进程中运行hadoop,便于调试，具体操作为在根目录下：

$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-examples-0.20.203.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

bin/hadoop jar（使用hadoop运行jar包） hadoop-examples-0.20.203.0.jar（jar包的名字） grep （要使用的类，后边的是参数）input output 'dfs[a-z.]+'，整个就是运行hadoop示例程序中的grep，对应的hdfs上的输入目录为input、输出目录为output。
这里的grep是 A map/reduce program that counts the matches of a regex in the input.并不是我们通常使用的grep。

最后cat的结果为：1 dfsadmin

伪分布式操作

在单结点上模拟分布式操作，每一个hadoop daemon都于不同的Java进程。具体操作如下：

切换到hadoop用户(也可以使用root,但是后面要修改一下hadoop脚本，去掉-jvm选项)

设置免ssh登陆
$ ssh localhost

如果弹出了需要输入密码的提示，使用下面：
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

我使用root用户运行了这个命令之后，再ssh localhost ，还是需要输入密码，但是登陆一次之后就可以免密钥登陆了。使用hadoop用户的话，配置好之后就直接可以免密钥登陆了。

配置相关文件：

conf/core-site.xml:

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

conf/hdfs-site.xml:

<name>dfs.replication</name>

</property>

</configuration>

conf/mapred-site.xml:

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

格式化分布式文件系统

$ bin/hadoop namenode -format

启动hadoop daemons

$ bin/start-all.sh

hadoop daemon的日志被写到${HADOOP_LOG_DIR}目录，这个目录默认是${HADOOP_HOME}/logs

可以输入jps看daemon是否启动起来，也可以通过web接口查看namenode和JobTracker

NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/

我报这个错误导致data node没有启动起来：

localhost: Unrecognized option: -jvm
localhost: Could not create the Java virtual machine.

解决办法：

1）修改hadoop启动脚本，

2）换成hadoop用户

详见hadoop Unrecognized option: -jvm

$ bin/hadoop fs -put conf input

上面的命令将本机上的conf目录拷贝到分布式文件系统的input目录

运行提供的例子：
$ bin/hadoop jar hadoop-examples-0.20.203.0.jar grep input output 'dfs[a-z.]+'

检查输出文件：
$ bin/hadoop fs -get output output
$ cat output/*

将分布式文件系统的output目录拷贝到当前的output目录

或者直接在分布式文件系统中查看：
$ bin/hadoop fs -cat output/*

最后关闭整个集群：
$ bin/stop-all.sh

PS: 进入hadoop目录,在bin/下面有很多启动脚本，可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode

* stop-dfs.sh 停止DFS守护

分部件的启动方式：

启动Hadoop集群需要启动HDFS集群和Map/Reduce集群。

在分配的NameNode上，运行下面的命令启动HDFS：
$ bin/start-dfs.sh（单独启动HDFS集群）

bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。

在分配的JobTracker上，运行下面的命令启动Map/Reduce：
$bin/start-mapred.sh （单独启动Map/Reduce）

bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。

bin/hadoop这个好像就是程序了，启动jobtracker的命令是：

$HADOOP_HOME/bin/hadoop --config $HADOOP_HOME/conf jobtracker

用这个启动，程序不会退出。

使用脚本启动jobtracker的命令是：

"$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start jobtracker