大数据Hadoop第二周——配置新的节点DataNode及ip地址

大数据第二周：

安装CentOS7最小安装版

磁盘空间不小于30G，将虚拟磁盘存储为单个文件。

自定义硬件界面上，注意要勾选“虚拟化Intel VT-x或AMD-V/RVI(V)”。

在此界面上，“SOFTWARE SELECTION”保持默认，因为默认就是最小安装。

最小安装完成后，要配置网络，使其可以上网。

打开NameNode虚拟机，在GUI中右键打开一个终端窗口，输入命令：

cd /etc/sysconfig

进入系统设置文件夹。然后用命令cd network-scripts，进入网络设置目录。

用ls命令查看目录内容。找到对应网卡号的文件。

怎么知道的网卡号：用命令ip a。

修改NAT内网的网络地址。第一步关闭虚拟机；第二部，点击VMware的编辑菜单，选中虚拟网络编辑器，由于我们使用的是NAT模式，选中NAT模式进行修改。

在子网IP栏里输入任何你想用的IP，最后一位需要是0，应为子网掩码是255.255.255.0。

点击NAT设置，将网关如图对应设置，注意网关最后一位不可以是1。并记住网关地址，虚拟机设置时需要使用。

NameNode虚拟机中，对应网卡号的文件内容，当前时dhcp形式，自动分配IP地址：

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=dhcp

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

UUID=343c6011-73f9-457c-84e7-30c635136974

DEVICE=ens33

ONBOOT=no

修改网卡为静态IP地址，然后，再看配置文件内容：

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=none

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

UUID=343c6011-73f9-457c-84e7-30c635136974

DEVICE=ens33

ONBOOT=no

IPADDR=10.0.0.10

PREFIX=24

GATEWAY=10.0.0.2

DNS1=10.0.0.2

开机DataNode1，进入网卡配置文件，由于没有图形界面，只能用内置编辑器vi。Vi有三种模式，一般命令模式，底行命令模式，编辑模式。刚进入时是一般命令模式，按i或s进入编辑模式，按Esc进入一般命令模式；在一般命令模式下，按冒号“:”，进入底行命令模式。在相应目录下，执行sudo vi ifcfg-ens33命令，编辑文件。

点击i进入编辑模式，修改两句成为：

BOOTPROTO=none

ONBOOT=yes

添加4句；

IPADDR=10.0.0.11

NETMASK=255.255.255.0

GATEWAY=10.0.0.2

DNS1=10.0.0.2

然后按ESC进入一般命令模式，再按冒号进入底行命令模式，输入wq，回车后退出。

重启虚拟机命令：sudo reboot

检查能否上网，用命令，例如：ping www.zufe.edu.cn

如能ping通，说明网络配置完成。

确定Spark、Hadoop、 Java版本

2.1选择Spark版本

进入Spark官方网站，http://spark.apache.org/，查找有关spark的版本信息。在主页上没有版本信息说明，按照经验，进入download界面。界面上显示：

提示下载Spark3.0.0，但是我们作为学习，能否下载此版本？页面下端有如下图：

点击相应链接，认真阅读说明，选择稳定版。

http://spark.apache.org/news/spark-3.0.0-preview2.html

从以上说明，Spark3.0.0并不是一个稳定版。

在这个页面上http://spark.apache.org/releases/spark-release-2-4-5.html：

页面上说明Spark2.4.5是正在维护的一个稳定版，所以我们选择此版本。

回到下载页面：http://spark.apache.org/downloads.html

选择Spark2.4.5，页面显示如下：

需要Hadoop2.7版本。

结论：Spark2.4.5，Hadoop2.7

下载Spark2.4.5。

2.2选择java版本

进入Hadoop官方网站，按照经验，点击download进入下载页面，下载页面中没有Hadoop2.7版本下载，也没有java版本相关信息，但有一个镜像网站链接，点击链接，可以找到Hadoop2.7版本，将此版本下载下来。

在Hadoop官方网站主页，点击“Learn more”，跳转到https://hadoop.apache.org/docs/stable/，点击页面底端的“Cluster Setup”链接，跳转到:

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html，在页面“Prerequisites”标题下，有“Install Java. See the Hadoop Wiki for known good versions”提示，点击链接进入：https://cwiki.apache.org/confluence/display/HADOOP2/HadoopJavaVersions，页面里有java版本信息，从此信息判断，我们需要java7.

结论：安装java7。

linux查看网络设置命令：

cd /etc/sysconfig/network-scripts/
sudo vim ifcfg-ens33
service network restart
重启centos7:systemctl restart network