学习hadoop的HelloWorld——单词统计WordCount

学习java时，第一个运行的程序就是HelloWorld；对应的，学习hadoop第一个运行的程序是hadoop提供的示例WordCount；

1.运行hadoop，以管理员身份打开cmd，执行 start-all 指令，hadoop的安装和配置是事先准备好的，安装和配置的方法可以看我的上一篇文章：windows下安装和配置hadoop

2.执行hadoop fs -ls /，查看Hadoop文件系统根目录下的包含的目录，这3个目录是上一次运行单词统计中生成的，为了重新演示，删除这些目录，执行hadoop fs -rm -r /input /output /tmp

3.到hadoop安装目录下，我的安装目录是D:hadoophadoop-3.2.2，安装目录下有一个LICENSE.txt文件，对这个文件的内容进行单词统计，将这个文件加入到hadoop文件系统的input目录下，input目录下放置一个或多个要统计的文件；

首先在hadoop文件系统中创建input文件夹，执行hadoop fs -mkdir /input

然后ls可以看到新建了input目录

4.将LICENSE.txt文件加入到hadoop文件系统的input目录下，执行hadoop fs -put LICENSE.txt /input/，然后ls可以看到input下有LICENSE.txt文件

5.进行单词统计，WordCount的程序是hadoop的示例程序，位置在hadoop的安装目录下的sharehadoopmapreducehadoop-mapreduce-examples-3.2.2.jar，运行这个jar，执行

hadoop jar sharehadoopmapreducehadoop-mapreduce-examples-3.2.2.jar wordcount /input /output

6.查看输出的结果，使用ls指令可以看到hadoop文件系统中出现了output目录和tmp目录，output目录下新出现了_SUCCESS文件和part-r-00000文件，单词统计的结果在part-r-00000文件中

查看 part-r-00000文件文件内容，执行hadoop fs -cat /output/part-r-00000，可以看到单词统计的结果：