分布式平台搭建

acmore
2018.6.17

1. 搭建Hadoop

以下操作皆基于Ubuntu 16.04 32位环境 & Hadoop 2.7.3版本

1.1 单节点环境

首先安装相关的准备环境

$ sudo apt update
$ sudo apt install -y default-jdk
$ sudo apt install -y vim
$ sudo apt install -y openssh-server

配置JAVA_HOME
- 一般来说Ubuntu平台上通过default-jdk安装的java位置在/usr/lib/jvm/default-jdk目录
- 在/etc/profile中添加下边两行内容并保存退出
```
export JAVA_HOME=/usr/lib/jvm/default-java
export PATH=$PATH:$JAVA_HOME/bin
```
添加用户和用户组

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo usermod -a -G sudo hduser

配置ssh
- 切换到hduser，并执行以下操作
```
$ ssh-keygen -t rsa -P ""
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```
- 之后尝试使用下边的命令连接本机，这个操作也会将本机加入到known hosts里
```
$ ssh localhost
```

安装Hadoop

下载hadoop-2.7.3.tar.gz，以下假定工作目录为/home/hduser

$ tar -zxvf hadoop-2.7.3.tar.gz
$ mv hadoop-2.7.3/ hadoop/
$ sudo chown -R hduser:hadoop hadoop

编辑bash配置

打开.bashrc，加入以下内容（也可以修改/etc/profile，但是使用.bashrc更加灵活）

export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/home/hduser/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

配置Hadoop（不同版本的hadoop的配置方案会有不同，配置之前记得要确定版本）

修改~/hadoop/etc/hadoop/hadoop-env.sh，在文件中添加下边的内容

export JAVA_HOME=/usr/lib/jvm/default-java

修改~/hadoop/etc/hadoop/yarn-env.sh，在文件中添加下边的内容

export JAVA_HOME=/usr/lib/jvm/default-java

修改~/hadoop/etc/hadoop/core-site.xml

执行以下命令

$ sudo mkdir -p /home/hduser/tmp
$ sudo chown hduser:hadoop /home/hduser/tmp
$ sudo chmod 750 /home/hduser/tmp

在core-site.xml添加以下内容（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
   <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hduser/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.hosts</name>
       <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hduser.groups</name>
        <value>*</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/hdfs-site.xml，添加以下内容（各个属性的内容可以按照实际情况修改）

执行以下命令

$ sudo mkdir -p /home/hduser/dfs/name
$ sudo chown hduser:hadoop /home/hduser/dfs/name
$ sudo chmod 750 /home/hduser/dfs/name
$ sudo mkdir -p /home/hduser/dfs/data
$ sudo chown hduser:hadoop /home/hduser/dfs/data
$ sudo chmod 750 /home/hduser/dfs/data

在hdfs-site.xml中添加以下内容

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hduser/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hduser/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/mapred-site.xml，添加以下内容（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

修改~/hadoop/etc/hadoop/yarn-site.xml（各个属性的内容可以按照实际情况修改）

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value> master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value> master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value> master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value> master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value> master:8088</value>
    </property>
</configuration>

格式化Namenode
- 进入~/hadoop/bin目录下，执行以下操作
```
$ ./hdfs namenode –format
```
启动hadoop
- 在~/hadoop/sbin执行以下命令
```
$ ./start-dfs.sh
$ ./start-yarn.sh
```
- 之后通过jps命令可以看到以下结果，说明启动成功
```
13058	Jps
13026	NodeManager
12916	ResourceManager
12169	DataNode
```

1.2 集群环境

此处默认master和slave已经按照单机节点配置完成

设置网络
- 我的例子是一台master一台slave，分别确定两者的ip，然后在两台机器的/etc/hosts中写入以下内容
```
192.168.0.1    master
192.168.0.2    slave
```
配置ssh免密登录
- 在master上执行以下命令
```
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@slave
```
- 在slave上执行以下命令
```
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hduser@master
```
- 之后两方互相登录测试一下是否可以免密登录
配置~/hadoop/etc/hadoop/slaves
- 在master机器的slaves文件中添加以下内容
```
master
slave
```
格式化Namenode
- 进入master的~/hadoop/bin目录下，执行以下操作
```
$ ./hdfs namenode –format
```

启动hadoop

在master的~/hadoop/sbin执行以下命令

$ ./start-dfs.sh
$ ./start-yarn.sh

之后通过jps命令可以看到以下结果，说明启动成功

master中

4048	Jps
3899	ResourceManager
4013	NodeManager
3726	SecondaryNameNode
3423	NameNode
3535	DataNode

slave中

2754	DataNode
3012	Jps
2903	NodeManager

2. 搭建Spark

2.1 Spark平台

下载Spark
- 在这里下载和hadoop版本对应的spark，假定工作目录为/home/hduser
- 进行如下操作解压压缩包（每个节点都要进行）
```
$ tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
```
配置~/.bashrc文件
- 在.bashrc文件中添加以下内容（每个节点都要添加）
```
export SPARK_HOME=/home/hduser/spark
export PATH=$PATH:$SPARK_HOME/bin
```
配置~/spark/conf/slaves文件
- 在两个节点的salves文件中添加以下内容
```
master
slave
```
启动Spark
- 在master的~/spark/sbin中执行以下命令
```
./start-all.sh
```
- 在master中执行jps，发现以下结果说明spark运行成功
```
5257	Worker
5177	Master
3726	SecondaryNameNode
5326	Jps
3432	NameNode
3535	DataNode
```
- 在slave中执行jsp，发现一下结果说明spark运行成功
```
2754	DataNode
3717	Worker
3771	Jps
```

2.2. 配置Scala

下载Scala
- 在这里相应版本的scala压缩包，假定工作目录为/home/hduser
- 进行如下操作解压压缩包（只需要在master进行）
```
$ tar -zxvf scala-2.12.6.tgz
```
配置~/.bashrc文件
- 在.bashrc文件中添加以下内容（只需要在master在master上执行以下命令）
```
export SCALA_HOME=/home/hduser/scala
export PATH=$PATH:$SCALA_HOME/bin
```

2.3 配置Eclipse

安装Eclipse
- 在master上执行以下命令
```
$ sudo apt install eclipse-platform
```
安装Eclipse插件

分布式平台搭建

分布式平台搭建

1. 搭建Hadoop

1.1 单节点环境

1.2 集群环境

2. 搭建Spark

2.1 Spark平台

2.2. 配置Scala

2.3 配置Eclipse

参考资料