Linux安装部署Hadoop及统计单词次数测试

今天来一起学习一下Linux安装以及部署Hadoop环境

Ps:需要安装jdk,没有安装的小伙伴移步到:点我快速进入安装jdk文章

一、下载Hadoop及上传服务器(两种方式)

1、手动下载然后上传服务器 下载地址:https://hadoop.apache.org/releases.html

file

2、自动下载

命令:wget http://apache.fayea.com/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

file

以上任选其一进行下载删除,创建文件夹已经怎么上传 我就不赘述了。 你看了我很多博客,你已经是个成熟的程序员了。

file

二、解压Hadoop压缩包

file

三、ssh安装

3.1、安装ssh:

file

yum install openssh-server

3.2、创建ssh文件夹,在ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是一对私钥和公钥,然后把id_dsa.pub(公钥)追加到授权的key里面去。

file

3.3登录ssh

file

1、登录ssh:ssh localhost
2、第一次会询问是否继续 输入yes即可(没提示忽略此话)
3、输入密码:服务器密码

四、配置Hadoop

4.1找到你本地jdk目录(没有安装jdk请移步点我快速进入安装jdk文章

file

4.2修改/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hadoop-env.sh 指定jdk的安装目录

file

进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/
修改命令:vim hadoop-env.sh
修改jdk安装目录:export JAVA_HOME=/DATA/jdk/jdk1.8.0_211

4.3创建一个hadoop运行时产生文件的存储路径文件夹

file

进入目录:cd /kingyifan/hadoop/hadoop-2.7.7
创建目录:mkdir temp

4.4 修改core-site.xml文件

file

进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
创建目录:vim core-site.xml
增加以下配置:
<configuration>
    <!-- 指定HDFS老大(namenode)的通信地址 -->
    <property>
            <name>fs.defaultFS</name>
            <value>hdfs://0.0.0.0:9000</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储路径 -->
    <property>
            <name>hadoop.tmp.dir</name>
            <value>/kingyifan/hadoop/hadoop-2.7.7/temp</value>
    </property>
</configuration>

4.5修改hadoop2.7.3/etc/hadoop/hdfs-site.xml :

file

修改文件:vim  /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hdfs-site.xml 
增加以下配置:
<configuration>
   <property>
        <name>dfs.replication</name>
        <value>2</value>
   </property>

   <property>
       <name>dfs.datanode.max.xcievers</name>
       <value>4096</value>
   </property>
</configuration>

五、启动hadoop

5.1 第一次启动需要格式化:

file

格式化目录:/kingyifan/hadoop/hadoop-2.7.7/bin/hdfs namenode -format(此命令可以在任意目录下执行,因为hdfs目录是绝对路径)

file

5.2启动hdfs

file

启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-dfs.sh
 输入第一次密码启动 namenode节点
 输入第二次密码启动datanode节点 这个节点如果没启动则上传不了文件 
 输入第三次密码启动secondarynamenode节点

PS:切记要把三次密码输入正确,一定要把三个节点启动起来。不要用ctrl+c强制退出到控制台。

datanode节点没启动成功 上传文件会报以下错误!

file

不知道启动没有启动成功:jps以下

file

  查看启动的服务:jps

ps:如果出现 root@0.0.0.0's password: 0.0.0.0: Permission denied, please try again. 解决方案如下:

file

5.3 关闭hdfs(此步骤可以不做。)

file

 关闭hdfs命令: /kingyifan/hadoop/hadoop-2.7.7/sbin/stop-dfs.sh 

5.4 修改iptables 增加50070端口访问权限

file

修改iptables:vim /etc/sysconfig/iptables
增加-A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
重启防火墙:service iptables restart

5.5、访问ui页面:http://192.168.241.134:50070

file

六、安装yarn Hadoop的资源管理器

6.1、先甩一个百度百科的资源管理器资料。

file

6.2、配置mapred-site.xml文件

6.2.1 复制一个模板配置出来。

file

   进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
   复制一个模板出来:cp mapred-site.xml.template mapred-site.xml

6.2.2 修改刚刚复制的文件

file

   1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
   2、修改文件 vim mapred-site.xml
   3.、添加以下配置:
  <configuration>
 <!-- 通知框架MR使用YARN -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

6.3 修改yarn-site.xml:

file


1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop  
2、修改文件vim yarn-site.xml
3.、添加以下配置:
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
</configuration>

6.4 YARN的启动

file

启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
输入服务器密码
jps 查询一下

6.5 关闭YARN

file

 关闭命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
 输入服务器密码

6.6 修改iptables 增加一下8088端口

file

   进入iptables配置:vim /etc/sysconfig/iptables
   增加8088配置:-A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
   重启防火墙:service iptables restart

6.7、访问ui页面:http://192.168.241.134:8088/cluster

file

七、简单运行一个统计单词出现

7.1 在hadoop根目录 创建一个test的文本文件夹

file

 进入hadoop目录:cd /kingyifan/hadoop/hadoop-2.7.7
 创建一个文本文件夹:vim test.txt
 随便输入一点东西

7.2上传test.txt

file

 上传hdfs根目录: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  fs  -put /kingyifan/hadoop/hadoop-2.7.7/test.txt   /

查看是否上传成功:

file

统计单词次数:

用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法,其中输入参数为 hdfs上根目录的test.txt 文件,而输出路径为 hdfs跟目录下的out目录,运行过程如下:

file

命令: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  jar  /kingyifan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount hdfs://127.0.0.1:9000/test.txt hdfs://127.0.0.1:9000/out

查看执行结果:

file

file

file

点击Download 如果出现下面这种情况

file

增加iptables防火墙 50075配置

file

然后把访问路径localhost改为服务器ip地址。

file

打开part-r-0000文件查看统计单词次数:

file

以上就是单词统计出现次数程序

如果修改了test.txt 文件怎么重新计算呢。直接执行计算命令,会有以下报错。

file

报错原因 说out目录已经存在

file

两种解决方案:

1.删除out目录

file

命令:/kingyifan/hadoop/hadoop-2.7.7/bin/hadoop fs -rm -r /out out是目录名称

2.执行命令的时候把out改成别的 例:out1 out2。。

重新计算单词个数步骤:

1.删除根目录test.txt文件

2.重新上传test.txt文件

3.删除out目录

4.执行计算命令(以上步骤都有。)

终、、


以上linux安装及部署Hadoop 以及测试统计单词出现次数 有什么问题可以联系我哈。

鼓励作者写出更好的技术文档,就请我喝一瓶哇哈哈哈哈哈哈哈。。你们的赞助决定我更新的速度哦!

微信:

支付宝:


感谢一路支持我的人。。。。。

Love me and hold me
QQ:69673804(16年老号)
EMAIL:itw@tom.com
友链交换
如果有兴趣和本博客交换友链的话,请按照下面的格式在评论区进行评论,我会尽快添加上你的链接。

网站名称:KingYiFan’S Blog
网站地址:http://blog.cnbuilder.cn
网站描述:年少是你未醒的梦话,风华是燃烬的彼岸花。
网站Logo/头像: [头像地址](https://blog.cnbuilder.cn/upload/2018/7/avatar20180720144536200.jpg)
原文地址:https://www.cnblogs.com/kingyifan/p/11721427.html