Hadoop入门环境搭建

环境搭建

安装centos7

创建虚拟机

打开vmware软件，按步骤操作：

文件——新建虚拟机
你希望使用什么类型的配置？
- 选 自定义（高级），下一步
选择虚拟机硬件兼容性
- 下一步
安装客户机操作系统
- 选 稍后安装操作系统，下一步
选择客户机机操作系统
- 选 Linux，版本选 CentOS7 64 位，下一步
命名虚拟机
- 虚拟机名称，填 hadoop100
- 位置，填 E:\vmhadoop100
- 下一步
处理器配置
- 由于我的机器是4核
- 处理器数量，选2
- 每个处理器的内核数量，选2
- 下一步
此虚拟机的内存
- 选4G，下一步
网络类型
- 选NAT，下一步
选择 I/O 控制器类型
- LSI Logic （推荐），下一步
选择磁盘类型
- SCSI （推荐），下一步
选择磁盘
- 创建新虚拟磁盘，下一步
指定磁盘容量
- 设置为 50G，将虚拟磁盘拆分成多个文件，下一步
指定磁盘文件
- 下一步
已准备好创建虚拟机
- 点 自定义硬件
- 点 新 CD/DVD（IDE）
- 连接一项选 使用 ISO 映像文件，选择centos的安装镜像
- 关闭
完成

虚拟机安装CentOS系统

接下来就是启动虚拟机，安装centos操作系统：

启动虚拟机
选 Install CentOS 7，然后界面提示按 Enter 继续
语言选 English，然后点Continue
LOCALIZATION 选 Asia/Shanghai timezone
SOFTWARE SELECTION 选 Basic Web Server
SYSTEM 项点进去 INSTALLATION DESTINATION ，然后点 Done 确认一下
SYSTEM 项点进去 KDUMP ，取消勾选 Enable kdump，点Done
SYSTEM 项点进去 NETWORK & HOSTNAME，将网卡启用一下，点Done
然后下一步开始安装
- 设置root密码
- 创建一个普通用户账号
等待系统安装完成，然后重启

网络配置

打开vmware，按如下操作：

编辑 —— 虚拟网络编辑器
因为需要管理员权限，所以点一下弹出来的界面的 “更改配置”
重新打开虚拟网络编辑器
选择名称为 “VMnet8”，类型为 “NAT模式” 的那条记录
- 然后左下角 “子网IP” 改成 192.168.1.0
- “子网掩码” 改成255.255.255.0
点 “NAT设置”，弹出的界面 “网关IP” 改成 192.168.1.2
重启虚拟机的 CentOS系统

然后用root账号登陆CentOS操作系统

将网络连接方式从自动获取IP改成静态IP：

$ vi /etc/sysconfig/network-scripts/ifcfg-ens33

BOOTPROTO="dhcp" 改成 BOOTPROTO="static"
在最后加上 IPADDR="192.168.1.100"，（hadoop100虚拟机对应的ip）
在最后加上 GATEWAY="192.168.1.2"，（对应vmware虚拟网络编辑器中修改的网关配置）
在最后加上 DNS1="192.168.1.2"

修改主机名：

vi /etc/hostname

将原来的值（localhost.localdomain）改成 hadoop100

添加主机映射：

vi /etc/hosts

添加多台主机的映射

192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

关闭防火墙：

sudo systemctl stop firewalld
sudo systemctl disable firewalld

Win10也修改一下主机映射文件：

进入 C:WindowsSystem32driversetc 路径

编辑hosts文件，加入如下配置

192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

最后重启一下CentOS，重启后用ping命令测试一下centos与win10是否能相互ping通

其它配置

root用户登录CentOS操作系统，然后继续操作

安装hadoop所需软件：

sudo yum install -y epel-release
sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static libssl-dev

创建一个普通用户

sudo useradd caibh
sudo passwd caibh

将普通用户添加到sudoer

vi /etc/sudoers

# 找到下面一行（91行），在root下面添加一行，如下所示：

## Allow root to run any commands anywhere
# root  ALL=(ALL)   ALL
# caibh ALL=(ALL)   ALL

在 /opt 目录下创建文件夹，并将所有者改成caibh

cd /opt
mkdir module
mkdir software
chown caibh:caibh /opt/module /opt/software

重启一下CentOS

克隆虚拟机

经过上面的步骤，已经创建了一台名为hadoop100的虚拟机，下面需要通过vmware的克隆功能，克隆hadoop102、hadoop103、hadoop104三台主机出来：

打开vmware，确认hadoop100已关机，选中它
虚拟机 —— 快照 —— 快照管理器 —— 克隆
弹出向导界面，点下一步
克隆源
- 选中 虚拟机中的当前状态
- 下一步
克隆类型
- 选 创建完整克隆
- 下一步
新虚拟机名称
- 名称写 hadoop102，位置写 E:vmhadoop102
- 点完成，等待克隆完成

克隆完成后启动 hadoop102，使用root登录，修改一下主机名和ip

vi /etc/hostname
# 主机名改成 hadoop102

vi /etc/sysconfig/network-scripts/ifcfg-ens33

# 改成如下配置
# BOOTPROTO="static"
# IPADDR="192.168.1.102"
# GATEWAY="192.168.1.2"
# DNS1="192.168.1.2"

hadoop103、hadoop104如法炮制。

安装JDK和Hadoop

打开xshell软件，连接到hadoop100，切换到 /opt/software 目录下，把jdk和hadoop的安装文件拖拉到xshell界面，此时会自动上传到centos的/opt/software目录下。

切换到/opt/software目录下，解压安装两个软件，安装到/opt/module目录下：

cd /opt/software
tar -xf jdk-8u212-linux-x64.tar.gz -C /opt/module
tar -xf hadoop-3.1.3.tar.gz -C /opt/module

然后配置环境变量

sudo vim /etc/profile.d/env.sh

加入以下内容：

export HADOOP_HOME=/opt/module/hadoop-3.1.3
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

加载配置：

source /etc/profile

验证java安装：

java -version

验证hadoop安装：

hadoop version

检查hadoop本地依赖库：

$ hadoop checknative
hadoop:  true /opt/module/hadoop-3.1.3/lib/native/libhadoop.so.1.0.0
zlib:    true /lib64/libz.so.1
zstd  :  true /lib64/libzstd.so.1
snappy:  true /lib64/libsnappy.so.1
lz4:     true revision:10301
bzip2:   true /lib64/libbz2.so.1
openssl: false Cannot load libcrypto.so (libcrypto.so: cannot open shared object file: No such file or directory)!
ISA-L:   false libhadoop was built without ISA-L support

发现openssl一项为false，按下面的操作解决：

$ cd /usr/lib64
$ ls
# 确认一下找到 libcrypto.so.1.0.2k
libcrypto.so.10                     libmagic.so.1.0.0                libtiffxx.so.5.2.0
libcrypto.so.1.0.2k  

# 创建一个软链接
$ sudo ln -s libcrypto.so.1.0.2k libcrypto.so

测试demo

官方grep样例

# 在hadoop-3.1.3文件下面创建一个input文件夹
$ cd /opt/module/hadoop-3.1.3
$ mkdir input

# 将Hadoop的xml配置文件复制到input
$ cp etc/hadoop/*.xml input

# 执行share目录下的MapReduce程序
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

# 查看输出结果
$ cat output/*

官方WordCount样例

# 在hadoop-3.1.3文件下面创建一个wcinput文件夹
$ mkdir wcinput

# 在wcinput文件下创建一个wc.input文件
$ cd wcinput

# 编辑wc.input文件
vi wc.input

# 在文件中输入如下内容
# hadoop yarn
# hadoop mapreduce
# caibh
# caibh

# 回到Hadoop目录/opt/module/hadoop-3.1.3

# 执行程序
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

# 查看结果
$ cat wcoutput/*
caibh	2
hadoop	2
mapreduce	1
yarn	1

编写集群分发脚本

scp命令

案例实操

在hadoop100上，将hadoop101中/opt/module目录下的软件拷贝到hadoop102上。

[caibh@hadoop100 /]$ scp -r /opt/module root@hadoop102:/opt/module

在hadoop103上，将hadoop101服务器上的/opt/module目录下的软件拷贝到hadoop103上。

[caibh@hadoop103 /]$ scp -r caibh@hadoop101:/opt/module root@hadoop103:/opt/module

在hadoop103上操作将hadoop101中/opt/module目录下的软件拷贝到hadoop104上。

[caibh@hadoop103 /]$ scp -r caibh@hadoop101:/opt/module caibh@hadoop104:/opt/module

注意：拷贝过来的/opt/module目录，别忘了在hadoop102、hadoop103、hadoop104上修改所有文件的，所有者和所有者组。

$ sudo chown caibh:caibh -R /opt/module

rsync命令

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

$ rsync -av $pdir/$fname $user@$host:$pdir/$fname

# -av, a表示归档拷贝, v表示显示复制过程
# $pdir/$fname, 表示要拷贝的文件路径/名称
# $user@$host:$pdir/$fname, 目的用户@主机:目的路径/名称

案例实操

把hadoop101机器上的/opt/software目录同步到hadoop102服务器的root用户下的/opt/目录

[caibh@hadoop101 /]$ rsync -av /opt/software/ hadoop102:/opt/software

xsync集群分发脚本

需求：循环复制文件到所有节点的相同目录下

需求分析：

rsync命令原始拷贝：

$ rsync -av /opt/module root@hadoop103:/opt/
# -a 归档拷贝
# -v 显示复制过程

期望脚本：

$ xsync <要同步的文件名称>

说明：在 /home/caibh/bin 这个目录下存放的脚本，caibh用户可以在系统任何地方直接执行。

脚本实现

在 /home/caibh 目录下创建 xsync 文件

$ cd /home/caibh
$ vim xsync

在该文件中编写如下代码

#!/bin/bash

# 1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi

# 2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 # 3. 遍历所有目录，挨个发送
 for file in $@
 do
  # 4. 判断文件是否存在
  if [ -e $file ]
  then
   # 5. 获取父目录
   pdir=$(cd -P $(dirname $file); pwd)
   # 6. 获取当前文件的名称
   fname=$(basename $file)
   ssh $host "mkdir -p $pdir"
   rsync -av $pdir/$fname $host:$pdir
  else
   echo $file does not exists!
  fi
 done
done

修改脚本 xsync 具有执行权限

$ chmod +x xsync

将脚本移动到/bin中，以便全局调用

$ sudo mv xsync /bin/

测试脚本

$ sudo xsync /bin/xsync

免密登录配置

在hadoop102上如下操作

# 使用caibh账号登录
$ ssh-keygen -t rsa
$ ssh-copy-id hadoop102
$ ssh-copy-id hadoop103
$ ssh-copy-id hadoop104

# 切换到root账号
$ su -
$ ssh-keygen -t rsa
$ ssh-copy-id hadoop102
$ ssh-copy-id hadoop103
$ ssh-copy-id hadoop104

在hadoop103、hadoop104也做同样操作

集群配置

集群部署规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器

注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

1. 核心配置文件

$ cd $HADOOP_HOME/etc/hadoop
$ vim core-site.xml

配置如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 配置HDFS默认的NameNode地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>
    <!-- Hadoop数据存放路径 -->
    <property>
        <name>hadoop.data.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <!-- 兼容hive的配置 -->
    <property>
        <name>hadoop.proxyuser.caibh.hosts</name>
        <value>*</value>
    </property>
    <!-- 兼容hive的配置 -->
    <property>
        <name>hadoop.proxyuser.caibh.groups</name>
        <value>*</value>
    </property>
</configuration>

2. HDFS配置文件

$ cd $HADOOP_HOME/etc/hadoop
$ vim hdfs-site.xml

配置如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- NameNode存储数据的路径 -->  
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file://${hadoop.data.dir}/name</value>
  </property>
  <!-- DataNode存储数据的路径 -->  
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file://${hadoop.data.dir}/data</value>
  </property>
  <!-- SencodaryNameNode存储数据的路径 -->  
  <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>file://${hadoop.data.dir}/namesecondary</value>
  </property>
  <!-- 兼容hive的配置 -->
  <property>
    <name>dfs.client.datanode-restart.timeout</name>
    <value>30</value>
  </property>
 <!-- SencondaryNameNode的地址 -->   
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop104:9868</value>
  </property>
</configuration>

3. YARN配置文件

$ cd $HADOOP_HOME/etc/hadoop
$ vim yarn-site.xml

配置如下：

<?xml version="1.0"?>
<configuration>
    <!--  -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- ResourceManger地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>
    <!-- 一些环境变量 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

4. MapReduce配置文件

$ cd $HADOOP_HOME/etc/hadoop
$ vim mapred-site.xml

配置如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- 告诉MapReduce它跑在YARN上 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. workers配置文件

$ cd $HADOOP_HOME/etc/hadoop
$ vim workers

配置如下：

# 配出所有的从机
hadoop102
hadoop103
hadoop104

同步三台机器的配置文件

$ cd $HADOOP_HOME/etc
[caibh@hadoop102 etc]$ xsync hadoop/
==================== hadoop102 ====================
sending incremental file list

sent 896 bytes  received 18 bytes  1,828.00 bytes/sec
total size is 107,796  speedup is 117.94
==================== hadoop103 ====================
sending incremental file list
hadoop/
hadoop/core-site.xml
hadoop/hdfs-site.xml
hadoop/mapred-site.xml
hadoop/workers
hadoop/yarn-site.xml

sent 3,590 bytes  received 164 bytes  7,508.00 bytes/sec
total size is 107,796  speedup is 28.71
==================== hadoop104 ====================
sending incremental file list
hadoop/
hadoop/core-site.xml
hadoop/hdfs-site.xml
hadoop/mapred-site.xml
hadoop/workers
hadoop/yarn-site.xml

启动HDFS集群

HDFS第一次启动前需要做一个格式化，由于HDFS的NameNode是配置在hadoop102上的，所以在hadoop102上执行一下格式化：

$ hdfs namenode -format

格式化之后就可以通过start-dfs.sh（在/opt/module/hadoop-3.1.3/sbin目录下）启动HDFS的集群了：

$ start-dfs.sh

启动YARN集群

由于YARN的ResourceManger是在hadoop103上，所以要到hadoop103上启动YARN：

$ start-yarn.sh

启动后可以在三台机器上通过jps命令查看到相关的java进程

配置历史服务器和日志聚集

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

先停掉集群：

# 到hadoop102上操作
$ stop-dfs.sh

# 到hadoop103上操作
$ stop-yarn.sh

在hadoop102上配置 mapred-site.xml

$ cd $HADOOP_HOME/etc/hadoop
$ vim mapred-site.xml

在该文件里面增加如下配置（带注释的两条）：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <!-- 历史服务器端地址 -->
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
  </property>
  <!-- 历史服务器web端地址 -->
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
  </property>
</configuration>

在hadoop102上配置 yarn-site.xml

$ cd $HADOOP_HOME/etc/hadoop
$ vim yarn-site.xml

在该文件里面增加如下配置（带注释的两条）：

<?xml version="1.0"?>
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>

    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>    
    <!-- 日志聚集服务器地址 -->
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://hadoop102:19888/jobhistory/logs</value>  
    </property>
    <!-- 日志保存一星期 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

分发配置

$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

在hadoop102启动历史服务器

$ mapred --daemon start historyserver

查看历史服务器是否启动

$ jps

查看 JobHistory Web页面

http://hadoop102:19888/jobhistory

配置日志聚集

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

先停掉集群：

# 到hadoop102上操作
$ stop-dfs.sh

# 到hadoop103上操作
$ stop-yarn.sh

$ mapred –daemon start historyserver

4. 查看历史服务器是否启动

jps

5. 查看JobHistor