搭建Hadoop2.0自带实例运行

1. 运行wordcount^[7]

Wordcount相当于helloword这样的程序，不必多说。在平台正常启动的情况下，建立input的文件夹和两个文件test1，test2，充填大量的“hello world”和“hello hadoop”。将input上传到hdfs上，命令为haoop fs –put /usr/lib/hadoop2.0.0-alpha/input/* input。然后在/share/hadoop/mapreduce下执行hadoop jar hadoop-mapreduce-examples-2.0.0-alpha.jar wordcount input output，等待运行，完毕后将output下载hadoop fs –get output，然后查看运行结果cat output/*。

2. 运行randomwriter

RandomWriter（随机写）例子利用 Map/Reduce把数据随机的写到dfs中。在由于没有设置，程序直接把空间写满了才停下来。导致虚拟机慢的要死，终于死机了一次。下面是产生的文件列表：

3. 浏览器实时监视

Hadoop2.0的监视功能十分强大，不仅能够实时观测到节点的状态，而且在应用提交后，就可以监测到应用执行的实时动态。对各部分产生的日志也可以方便地查阅，界面也算漂亮，下面是一个截图，第一个任务失败的原因是文件的目录没写正确，第二第三个运行成功。

■小结：

由于在运行过程中还有很多错误提示，这两个实例只是证明这个平台勉强可以运行了。

■总结：

从6月25号到今天7月17号共三周多的努力，基本上完成了这个平台的搭建。有一些收获：

熟悉了linux操作系统
初步了解了hadoop的工作原理
摸索了一些发现问题和解决问题的方法

　　这些收获写在这里，才发现我的入门过程还很久远，补课这个事情的确是很愁人的，既然走出第一步，剩下的就是坚持。下一步的工作是在平台上进行开发，这个难度比较大，可能会在hadoop原理的深入学习和Java编程的学习上花费大量的时间和精力。

参考文献：

[1] http://dongxicheng.org/mapreduce-nextgen/apache-hadoop-2-0-alpha

[2] http://blog.sina.com.cn/s/blog_59d2b1db0100ra6h.html

[3] http://www.cnblogs.com/tangtianfly/archive/2012/04/11/2441760.html

[4] http://hadoop.apache.org/common/docs/r2.0.0-alpha/

[5] http://blog.csdn.net/shenshouer/article/details/7613234

[6] http://www.linkedin.com/groups/Please-Help-Me-This-ERRORorgapachehadoophdfsservernamenodeNameNode-988957.S.115830635?qid=58283adf-47dc-43ba-879b-0612f3eb7cd7&trk=group_most_popular_guest-0-b-cmr&goback=.gmp_988957

[7] http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

分类: hadoop