Hadoop应用测试

以下是我实际在虚拟机中测试完成的例子，

使用easy_hadoop的bash脚本需要改两个路径　，

还有pig的路径，使用８.1的stable版本

部署完成之后，要注意使用hadoop这个账号来运行

mkdir input && cd input

echo "aa" >1.txt

echo "bb" >> 1.txt

echo "aa" >> 1.txt

echo "zz" >2.txt

352 bin/hadoop dfs -copyFromLocal /opt/modules/hadoop/hadoop-0.20.203.0/input input
353 sudo -u hadoop bin/hadoop dfs -copyFromLocal /opt/modules/hadoop/hadoop-0.20.203.0/input input
354 sudo -u hadoop bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount input output

356 sudo -u hadoop bin/hadoop dfs -ls output/
357 sudo -u hadoop bin/hadoop dfs -cat output/part-r-00000

Hadoop应用测试

2009年07月16日星期四 13:18

Hadoop部署完成后，进行示例测试。hadoop-0.18.3目录下包含了hadoop-0.18.3-examples.jar，里面包含很多示例。下面测试一下最著名的wordcount。

开启HDFS，如下：

$ cd /home/howard/hadoop-0.18.3

$ bin/hadoop/start-dfs.sh

在本地目录建立input目录，并在其中新建file01.txt和file02.txt。编辑这两个txt，分别写入：Hello Hadoop Goodbye Hadoop、Hello World Bye World。然后把本地的这个目录拷贝到HDFS中，我在这个地方犯了错误，以为本地的已经就在HDFS中了，导致拷贝时找不到目录。

$ bin/hadoop dfs -copyFromLocal /home/howard/input input //前面的路径是本地input目录，后面的input表示存放在HDFS中

接下来，就可以执行wordcount了。要运行jar必须开启服务，

$bin/start-all.sh

$bin/hadoop jar hadoop-0.18.3-examples.jar wordcount input output //运行wordcount，结果存放在output目录中

下面就可以查看输出结果，

$ bin/hadoop dfs -cat output/part-00000 结果如下：

Bye 1

Goodbye 1

Hadoop 2

Hello 2

World 2

这是一个典型的MapReduce示例。

另外，如果在HDFS中有不需要的目录(里面包含文件)，可以使用下面的命令删除。

$ bin/hadoop dfs -rmr /user/howard/output

如果是空目录，则用$ bin/hadoop dfs -rm /user/howard/output