Hadoop 学习笔记（三）Hadoop 完全分布式集群模拟搭建

上面我们介绍了 Hadoop 本地运行模式的搭建，但是实际生产环境均是采用完全分布式模式的，下面我们采用三个节点来搭建完全分布式的 Hadoop 的环境。

一、准备工作：

准备3台客户机（关闭防火墙、静态ip、主机名称）
安装JDK
配置环境变量
安装Hadoop
配置环境变量
配置集群
单点启动
配置ssh
群起并测试集群

()此处省略各步骤操作方式

二、编写集群分发脚本

1、scp（secure copy）安全拷贝

（1）scp定义：

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法

scp -r $pdir/$fname $user@hadoop$host:$pdir

命令递归要拷贝的文件路径/名称目的用户@主机:目的路径

（3）案例实操

（a）在hadoop101上，将hadoop101中/opt/module目录下的软件拷贝到hadoop102上。

scp -r /opt/module  root@hadoop102:/opt/module

　　　　（b）在hadoop103上，将hadoop101服务器上的/opt/module目录下的软件拷贝到hadoop103上

udo scp -r atguigu@hadoop101:/opt/module root@hadoop103:/opt/module

　　　　（c）在hadoop103上操作将hadoop101中/opt/module目录下的软件拷贝到hadoop104上

scp -r atguigu@hadoop101:/opt/module root@hadoop104:/opt/module

注意：拷贝过来的/opt/module目录，别忘了在hadoop102、hadoop103、hadoop104上修改所有文件的，所有者和所有者组。sudo chown atguigu:atguigu -R /opt/module

　　　　（d）将hadoop101中/etc/profile文件拷贝到hadoop102的/etc/profile上。

sudo scp /etc/profile root@hadoop102:/etc/profile

（e）将hadoop101中/etc/profile文件拷贝到hadoop103的/etc/profile上。

sudo scp /etc/profile root@hadoop103:/etc/profile

（f）将hadoop101中/etc/profile文件拷贝到hadoop104的/etc/profile上。

sudo scp /etc/profile root@hadoop104:/etc/profile

注意：Scp 过来的配置文件若要生效，需要到目标主机 source 一下；

2. rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（1）基本语法

rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径

选项参数说明

选项	功能
-r	递归
-v	显示复制过程
-l	拷贝符号连接

（2）案例实操

（a）把hadoop101机器上的/opt/software目录同步到hadoop102服务器的root用户下的/opt/目录

rsync -rvl /opt/software/ root@hadoop102:/opt/software

3. xsync集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下

（2）需求分析：

（a）rsync命令原始拷贝：

rsync -rvl /opt/module root@hadoop103:/opt/

（b）期望脚本：

xsync要同步的文件名称

（c）说明：在/home/atguigu/bin这个目录下存放的脚本，atguigu用户可以在系统任何地方直接执行。

（3）脚本实现

（a）在/home/atguigu目录下创建bin目录，并在bin目录下xsync创建文件，文件内容如下：

[hui@hadoop102 ~]$ mkdir bin
[hui@hadoop102 ~]$ cd bin/
[hui@hadoop102 bin]$ touch xsync
[hui@hadoop102 bin]$ vi xsync
!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

（b）修改脚本 xsync 具有执行权限

chmod 777 xsync

（c）调用脚本形式：xsync 文件名称

xsync /home/hui/bin

注意：如果将xsync放到/home/hui/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

三、一些感念

主从结构：在一个集群中，会有部分节点充当主服务器的角色，其他服务器都是从服务器的角色，当前这种架构模式叫做主从结构。

主从结构分类：

1、一主多从

2、多主多从

Hadoop中的HDFS和YARN都是主从结构，主从结构中的主节点和从节点有多重概念方式：

1、主节点　　从节点

2、master　　slave

3、管理者　　工作者

4、leader　　follower

Hadoop集群中各个角色的名称：

服务	主节点	从节点
HDFS	NameNode	DataNode
YARN	ResourceManager	NodeManager

集群主机规划：

hadoop103

hadoop104

hadoop105

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

四、Hadoop 集群按照及相关配置

1、文件路径

-rw-r--r--. 1 hui wd 197657687 5月 22 2017 hadoop-2.7.2.tar.gz
drwxr-xr-x. 2 hui hui 4096 6月 26 2015 mysql-libs
[hui@hadoop103 software]$ pwd
/opt/software

2、安装路径：

drwxr-xr-x. 14 hui wd      4096 2月   8 2020 hadoop-2.7.2
drwxr-xr-x.  8 hui hui     4096 2月   8 2020 hive
drwxr-xr-x.  8 hui wd      4096 7月  22 2017 jdk1.8.0_144
-rw-r--r--   1 hui wd  28678231 12月 19 2018 scala-2.11.8.tgz
[hui@hadoop103 module]$ pwd
/opt/module

3、相关配置工作

（1）、核心配置文件

cd /opt/module/hadoop-2.7.2/etc/hadoop
[hui@hadoop103 hadoop]$ vim core-site.xml 

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://hadoop103:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

</configuration>

（2）、HDFS 配置文件：引入 JDK 环境

[hui@hadoop103 hadoop]$ vim  hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/opt/module/jdk1.8.0_144

副本数量和辅助节点文件路径配置

[hui@hadoop103 hadoop]$ vim hdfs-site.xml
<!--  配置HDFS 文件副本数量 -->
<property>
        <name>dfs.replication</name>
        <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop104:50090</value>
</property>

说明：当配置的副本数量大于集群节点数量时，指南满足集群节点数的副本数量，配置副本数量要注意一下。

（3）、YARN 配置文件

配置 yarn-env.sh

[hui@hadoop103 hadoop]$ vim yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 yarn-site.xml

[hui@hadoop103 hadoop]$ vim yarn-site.xml
<!-- reducer获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop104</value>
</property>

（4）MapReduce 配置

配置mapred-env.sh

[hui@hadoop103 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml

[hui@hadoop103 hadoop]$ cp mapred-site.xml.template mapred-site.xml

[hui@hadoop103 hadoop]$ vim mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

4、配置文件分发到其余两个节点

[hui@hadoop103 hadoop]$ xsync /opt/module/hadoop-2.7.2/
[hui@hadoop104 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
[hui@hadoop105 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

五、集群启动&停止

启动 HDFS

[hui@hadoop103 ~]$ /opt/module/hadoop-2.7.2/sbin/start-dfs.sh  
Starting namenodes on [hadoop103]
hadoop103: starting namenode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-hui-namenode-hadoop103.out
hadoop103: starting datanode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-hui-datanode-hadoop103.out
hadoop105: starting datanode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-hui-datanode-hadoop105.out
hadoop104: starting datanode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-hui-datanode-hadoop104.out
Starting secondary namenodes [hadoop105]
hadoop105: starting secondarynamenode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-hui-secondarynamenode-hadoop105.out
[hui@hadoop103 ~]$ jps
2595 DataNode
2836 Jps
2488 NameNode
[hui@hadoop103 ~]$

[hui@hadoop104 ~]$ jps
4451 DataNode
4485 Jps
[hui@hadoop104 ~]$

[hui@hadoop105 ~]$ jps
4432 DataNode
4528 Jps
4489 SecondaryNameNode

启动 YARN

[hui@hadoop104 ~]$ /opt/module/hadoop-2.7.2/sbin/start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-hui-resourcemanager-hadoop104.out
hadoop103: starting nodemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-hui-nodemanager-hadoop103.out
hadoop105: starting nodemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-hui-nodemanager-hadoop105.out
hadoop104: starting nodemanager, logging to /opt/module/hadoop-2.7.2/logs/yarn-hui-nodemanager-hadoop104.out
[hui@hadoop104 ~]$ jps
4690 NodeManager
4451 DataNode
4582 ResourceManager
4727 Jps
[hui@hadoop104 ~]$ 
[hui@hadoop103 ~]$ jps
2595 DataNode
2887 NodeManager
2488 NameNode
2921 Jps
[hui@hadoop103 ~]$ 
[hui@hadoop105 ~]$ jps
4432 DataNode
4627 NodeManager
4661 Jps
4489 SecondaryNameNode
[hui@hadoop105 ~]$

停止HDFS & YARN

/opt/module/hadoop-2.7.2/sbin/stop-dfs.sh
/opt/module/hadoop-2.7.2/sbin/stop-yarn.sh

至此，完全分布式 Hadoop 环境搭建完毕。