Hadoop 安装之本地模式与分布式模式北漂

一、安装环境说明

1、版本说明

1、操作系统使用centos系列，建议不要使用ubuntu系列，在生成环境中，使用ubuntu系统，系统会莫名的卡死，看大数据相关的进程，发现进程处于D状态(也就是不可中断状态),处于这种模式的话，基本上除了修改内核，打补丁，只能重启系统，这对于业务来说还是很有影响的。
2、jdk：使用1.8
3、hadoop：默认使用hadoop2.9.2

2、下载

1、jdk：   下载地址：http://download.oracle.com/otn-pub/java/jdk/8u181-b13/96a7b8442fe848ef90c96a2fad6ed6d1/jdk-8u181-linux-x64.tar.gz  或者请到官网下载你自己需要的版本：http://www.oracle.com/technetwork/java/javase/downloads/index.html

2、hadoop： 下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 或者请到官网下载你所需的版本：http://hadoop.apache.org/releases.html

3、设置主机名和IP地址的映射。

(1)、修改主机名：

#vim /etc/sysconfig/network

NETWORKING=yes   #打开网络
HOSTNAME=localhost.localdomain  #在这里修改主机名，这种方式是永久修改(建议这种方式)，直接在命令行使用   hostname  主机名  这种方式是临时修改，系统重启就会失效。

添加ip和主机名的映射关系

#vim /etc/hosts

#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.4.91 master   #这一行是新添加的，master既是刚刚修改的主机名。

(2)关闭防火墙和selinux

关闭防火墙（centos 6.x）：

#/etc/init.d/iptables stop   

#chkconfig  iptables off

如果你是centos 7.x的系统，请使用：

#systemctl stop firewalld.service

#systemctl disable firewalld.service

关闭selinux：

#vim /etc/selinux/config

把SELINUX=enforcing替换成 SELINUX=disabled

(3)安装、配置jdk环境变量：

#把刚才下载的jdk包放到某一个目录里面，例如我的放到/data下面

#tar -zxvf jdk-8u181-linux-x64.tar.gz    #解压jdk

打开/etc/profile文件   #全局配置文件

export JAVA_HOME=/data/jdk1.8.0_181                          #这两行是在文件的最后添加的
export PATH=${JAVA_HOME}/bin:$PATH

# source /etc/profile     #让jdk生效

#java -version   #查看jdk是否生效，如果输入如下，说明配置成功。

java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

二、hadoop部署模式

1、本地模式安装(各个模块运行在一台机器上，占用的jvm进程数为1)

进入到放置hadoop源码包的目录

#tar -zxvf hadoop-2.9.0.tar.gz

2、运行MapReduce认证

(1)、在本地系统创建一个文件

#cat test.txt

11 22 33

22 33 44

44 22 11

运行hadoop自带的MapReduce程序

#./hadoop jar /data/hadoop-2.9.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar wordcount test.txt test.out

这里可以看到job ID中有local字样，说明是运行在本地模式下的。

(2)查看输出的文件。在本地模式下，输出文件是在本地。

# ll test.out

输出目录中有_SUCCESS文件说明JOB运行成功；part-r-00000是输出结果文件,r说明是reduce产生的结果，如果是m的话，则是map阶段产生的。

如果要查看具体的信息：

# cat test.out/part-r-00000

2、伪分布模式安装（多个jvm进程，单台系统）

(1)、创建hadoop运行的用户

#groupadd hadoop

#useradd -g hadoop hadoop

#passwd hadoop #给hadoop用户设置密码。

(2)、给hadoop用户sudo权限

# vim /etc/sudoers

在root下一行添加红框这一行。

#chmod u+w /etc/sudoers

切换到hadoop用户

#su - hadoop

(3)、创建存放hadoop包的目录

♥ #mkdir /home/hadoop 拷贝包到这个目录下

#cd /home/hadoop/

#tar -zxvf tar -zxvf hadoop-2.9.0.tar.gz

在/etc/profile最下面追加：

export HADOOP_HOME="/home/hadoop/hadoop-2.5.0"

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

#source /etc/profile #使配置生效

验证HADOOP_HOME参数

#echo $HADOOP_HOME

/home/hadoop/hadoop-2.9.0

♥ 配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数

修改JAVA_HOME参数配置(三个文件都要修改)

#cd /home/hadoop/hadoop-2.9.0/etc/hadoop/

export JAVA_HOME=/data/jdk1.8.0_181 #去掉原先的注释，修改成这样子。

♥ 配置 core-site.xml

在<configuration>下面添加

fs.defaultFS参数配置的是HDFS的地址。

<property>

<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.9.0/tmp</value>
</property>

hadoop.tmp.dir 是hdfs文件系统产生数据所存放的临时目录

创建目录：

#mkdir /home/hadoop/hadoop-2.9.0/tmp

♥ 配置hdfs-site.xml

在<configuration>下面添加

<property>
<name>dfs.replication</name> #这里指定hdfs产生数据时备份的机器数量，由于只有一台机器，所以为1.
<value>1</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoop-2.9.0/name</value> #指定namenode数据存放的目录
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoop-2.9.0/data</value> #指定datanode数据存放的目录

</property>

# mkdir /home/hadoop/hadoop-2.9.0/name

# mkdir /home/hadoop/hadoop-2.9.0/data

♥ 接下来格式化hdfs

#./bin/hadoop namenode -format

格式化是对HDFS这个分布式文件系统中的DataNode进行分块，统计所有分块后的初始元数据的存储在NameNode中。

格式化后，查看core-site.xml里hadoop.tmp.dir（本例是/home/hadoop/hadoop-2.9.0/目录）指定的目录下是否有了dfs目录，如果有，说明格式化成功。

# ll /home/hadoop/hadoop-2.9.0/name/current

fsimage_XXX 是namenode元数据存满以后持久化到磁盘的文件。

fsimage*.md5 是校验文件，校验fsimage的完整性。

seen_txid 是hadoop的版本

#cat VERSION

namespaceID=271252846 #namenode的唯一id
clusterID=CID-97e864b1-262d-4ce0-93d9-9dd96953ecc5 #集群id
cTime=1533545685716
storageType=NAME_NODE #存储类型
blockpoolID=BP-1051333686-192.168.4.91-1533545685716
layoutVersion=-63

当然，NameNode和DataNode的集群ID应该一致，表明这是一个集群，datenode的id可以到/home/hadoop/hadoop-2.9.0/data 这个目录下查看。

♥ 启动namenode、datanode、SecondaryNameNode

# ./sbin/hadoop-daemon.sh start namenode

#./sbin/hadoop-daemon.sh start datanode

#./sbin/hadoop-daemon.sh start secondarynamenode

使用jps命令查看是否启动成功

#jps

3022 NameNode

10578 Jps

2099 DateNode

12768 SecondaryNameNode

♥ hdfs分布式文件系统测试

在hdfs上创建目录：

#./bin/hadoop fs -mkdir /test

查看目录：

上传本地文件到hdfs：

./bin/hadoop fs -put wc.input /test

从hdfs分布式文件系统上面下载文件到本地系统

#./bin/hadoop fs -get /test/wc.put

♥ 配置yarn

配置 mapred-site.xml

在 <configuration>下面添加

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置yarn.site.xml

在 <configuration>下面添加

<property>
<name>yarn.nodemanager.aux-services</name> #yarn默认混洗方式

<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.hostname</name> #指定resourcemanager的主机名称
<value>master</value>
</property>

♥启动resourcemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager

♥启动nodemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

使用jps查看是否启动成功，如果有 resourcemanager nodemanager 则说明成功。

♥ 查看yarn的外部界面，

如果你要在Windows里面通过主机名去访问Linux里面的主机，那么你需要在Windows的hosts主机里面添加Linux主机名和其IP地址的映射关系。

这样才能正常从Windows浏览器通过主机名访问Linux，当然，你直接输入IP地址就不需要这一步了。

有时候你在修改Windows 下的/etc/hosts完成以后，保存时提示没有权限，该怎么做呢：

如图：hosts文件右键——> 安全----->指定users用户，在权限这里，把允许下面的都勾选上。

♥ 允许MapReduce

在本地系统创建测试用的文件

#cat wc.put

上传到hdfs文件系统

# hadoop fs -put wc.put /

运行Wordcount MapReduce job

#cd /home/hadoop/hadoop-2.9.0

#hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar wordcount /wc.input /wc.output

查看输出结果

# hadoop fs -ls /wc.output/

有SUCCESS就代表这个job执行成功，这是一个空文件；part-r-00000既是输出结果，其中r表示是reduce阶段产生的结果，mapreduce程序执行时，可以没有reduce阶段，但是肯定会有map阶段，如果没有reduce阶段这个地方有是-m-，一个reduce会产生一个part-r-开头的文件。

• 查看结果

# hadoop fs -cat /wc.output/part-r-00000

其结果可以看出来是按照键值排好序的。

♥ 如何停止hadoop？

(1)一个一个进程慢慢停止

#./sbin/hadoop-daemon.sh stop namenode

#./sbin/hadoop-daemon.sh stop datenode

# ./sbin/yarn-daemon.sh stop resourcemanager

# ./sbin/yarn-daemon.sh stop nodemanager

(2) hadoop有一个脚本文件，可以直接停止集群,这个脚本文件分开来的话就是停止hdfs和yarn。启动整个集群也可以使用 ./sbin/start-all.sh

#./sbin/stop-all.sh

♥ 各个功能模块的介绍

(1) yarn

这是一个资源调度框架，在hadoop2.0中，主要就是管理整个集群资源的分配和调度，具体请查看 https://blog.csdn.net/liuwenbo0920/article/details/43304243

(2) hdfs

hdfs分布式文件系统主要用来将大文件分块以后进行分布式存储数据的，突破了单台机器磁盘存储限制，这是一个相对独立的模块，能够为yarn、hbase等模块提供服务。

(3)MapReduce

MapReduce是一个计算框架，通过map、reduce阶段来分布式的对数据进行流处理，适用于对数据的流处理，对实时性要求高的应用不太适合，在hadoop1.0中，MapReduce是出于霸主级别，但是在hadoop2.0中，提供了一个更高效的处理引擎--spark。

♥ 如何开启历史服务？

(1) #./sbin/mr-jobhistory-daemon.sh start historyserver

开启以后通过web界面可以查看，点开下图的history，可以查看历史信息。

历史服务器的端口是19888.

♥ 如果想在web界面查看日志该如何做呢？那就是开启日志聚集，日志聚集是在yarn框架的，所以在配置的时候是在yarn.site.xml文件里面配置

(1)日志聚集介绍

MapReduce是在各个机器上运行的，在运行过程中产生的日志存在于各个机器上，为了能够统一查看各个机器的运行日志，将日志集中存放在HDFS上，这个过程就是日志聚集。

(2)日志聚集默认是未开启的，通过配置yarn.site.xml来开启。

<property>
<name>yarn.log-aggregation-enable</name> # 是否开启日志聚集
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name> #日志保存时间，以秒为单位。
<value>106800</value>
</property>

(3)配置完以后重启yarn进程

# stop-yarn.sh

# start-yarn.sh

(4)现在就可以去web界面查看map、reduce阶段产生的日志。

当然，在执行这一步的时候，是因为我们上面刚刚跑过MapReduce程序，如果你没有跑MapReduce，则这个界面不会有这些信息。

如果是在完全分布式或者ha完全分布式集群里面，当配置完成以后，需要把配置文件拷贝到其他节点在重新启动yarn进程。

下节在记录hadoop完全分布式安装、ha、以及Federation （联邦）。