Hadoop 之 配置与运行 wordcount示例

Hadoop 配置与运行 wordcount示例,也是个MapReduce示例

前面Hadoop安装分两部份,一是虚机的安装与配置, 二是Hadoop集群安装与配置

这里我们运行下hadoop 自带示例wordcount,当然在做这个示例前提是Hadoop已配置好,且已启动运行

Wordcount(单词计数)是最简单最直观看到MapReduce思想,可以这么认为是MapReduce版”Hello World”

单词计数主要功能是:统计一系列文本文件中每个单词出现的次数,比如 hello world,hello,统计结果就是hello 2,world 1

具体我们看一下如下步骤:

一、创建input目录

[hadoop@kencentos01 bin]$ hdfs dfs -mkdir -p /usr/hadoop/wordcount/input

这里是一次创建多级目录

二、上传自定义的文件到input目录

如创建文件 /usr/mydata/test1.txt,里面自行输入一些词组

上传到hadoop目录中

[hadoop@kencentos01 bin]$ hdfs dfs -put /usr/mydata/test1.txt /usr/hadoop/wordcount/input

如果创建多个文件可以用通配符来表示

Hdfs dfs –put /usr/mydata/test*.txt  /usr/hadoop/worcount/input

三、运行示例

[hadoop@kencentos01 hadoop-2.7.3]$

 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /usr/hadoop/worcount/input  /usr/hadoop/worcount/output

 注: output文件夹为全新的,之前有的删除

四、查看结果

查看output 目录看结果,查看对应生成文件part-r-0000内容

五、可能遇到的问题

在这期间运行示例时,有可能遇到mapreduce job 一直在运行,不停止的情况

因为正常运行不到1分钟结果就出来了,若出现这种情况一般,说明遇到问题了

可以查看下对应的log, (hadoop安装目录下logs),比如 yarn 相关日志

常见可能的问题原因有:

1、hostname配置有误,即检查hosts文件中配置,注释掉无关的host行

2、检查防火墙,开放所有hadoop用到的端口,若为了简单,可直接关掉防火墙

3、检查节点是否正常运行,如slave机子上datanode

4、hadoop用户权限不够

5、应权限导致默认目录不可用,可自指定 input目录,便于发现问题

6、yarn env中环境变量配置,尤其是java home路径配置 

7、yarn -site.xml中配置有误,比如配置内存或虚拟机分配的内存过小

原文地址:https://www.cnblogs.com/kcen/p/7977127.html