hadoop集群搭建流程

安装环境

利用VMware创建了5台ubuntu18.04的虚拟机，主机名分别是hadoop01-hadoop05,采用NAT网络连接，IP分别为192.168.111.130-192.168.111.134。

安装过程

1 切换到root用户下。设置root用户密码方式（利用xshell向所有的会话发送相同的命令）：

 sudo passwd root

2 向hosts文件中添加主机名和ip地址的映射关系

 for((i=1;i<=5;i++)); do echo "192.168.111.13"$(($i-1))" hadoop0"${i} >> /etc/hosts; done;

3 配置无秘钥登录

 # 生成公钥
 ssh-keygen -t rsa;
 #将公钥发送到其它服务器
 for((i=1;i<=5;i++)); do ssh-copy-id root@hadoop0${i};done;

4 安装jre

 apt install openjdk-11-jdk-headless

5 配置java环境变量

#添加JAVA_HOME和PATH两个变量，并让其生效
echo 'export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64' >> /etc/profile;
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile;
source /etc/profile

# 检查是否添加
echo ${JAVA_HOME}
echo ${PATH}

6 安装必须的环境（ssh, rsync）

apt install ssh;
apt install rsync;

7 下载hdoop安装包

cd /opt;
wget -p https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz

8 安装伪分布式，通过伪分布式的配置可以为完全分布式搭建打下基础，因为完全分布式只是修改伪分布式的配置参数。
- 配置HADOOP_HOME环境变量在/etc/profile中。

- 配置 etc/hadoop/hadoop-env.sh,etc/hadoop/mapred-env.sh,tc/hadoop/yarn-env.sh，这里我只修改了 JAVA_HOME参数。

``` 
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 

```

- 配置 etc/hadoop/core-site.xml。

```
    <property> 
	   <name>fs.defaultFS</name>  
           <value>hdfs://hadoop01:9000</value>  
</property>  
<property>
	<name>hadoop.tmp.dir</name>
	<value>/var/hadoop/local</value>
</property>
```

- 配置 etc/hadoop/hdfs-site.xml。

```
 <property>
         <name>dfs.replication</name>
         <value>1</value>
 </property>
 <property>
         <name>dfs.namenode.secondary.http-address</name>
         <value>hadoop01:9868</value>
 </property>
```
 - 使用start-dfs.sh启动。

9 搭建完全分布式

10 搭建zookeeper.
- 配置环境变量，在/etc/profile中添加 ZOOKEEPER_HOME,并在PATH路径中添加ZOOKEEPER_HOME
- 修改配置文件，修改路径和增加服务器

- 增加myid的配置

参考资料：
hadoop安装文档
 bilibili 大数据视频