hadoop环境搭建

　一，服务准备

本案例用Linux虚拟机服务器来搭建HADOOP集群，所用的软件版本：

Vmware 11.0

Contos 6.5 64bit

二，JDK环境安装

上传JDK安装包---》解压（tar -zxvf）到指定目录---》配置环境变量 vi /etc/profile

三，网络环境准备

1，将虚拟机的网络环境设置为NAT

2，修改主机名：vi /etc/sysconfig/network 重启服务器生效

3，修改ip 。若为动态ip（不好，环境配置好后ip会随时发生变化）则可以跳过此步。

两种方式：

第一种：通过Linux图形界面进行修改（强烈推荐）

进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 ->

选择IPv4 -> method选择为manual -> 点击add按钮 -> 添加IP：192.168.1.101 子网掩码：255.255.255.0 网关：192.168.1.1 -> apply

第二种：修改配置文件方式（屌丝程序猿专用）
vim /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE="eth0"
BOOTPROTO="static" ###
HWADDR="00:0C:29:3C:BF:E7"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"
IPADDR="192.168.1.101" ###
NETMASK="255.255.255.0" ###
GATEWAY="192.168.1.1" ###

四，修改主机名和映射关系

vi /etc/sysconfig/network 修改主机名重新启动有效

vim /etc/hosts

192.168.184.136 server3

五，关闭防火墙

#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#查看防火墙开机启动状态
chkconfig iptables --list
#关闭防火墙开机启动
chkconfig iptables off

六，安装HADOOP-2.4.1

Alt+p出现sftp窗口后put上传---》解压到指定目录---》和配置JDK一样，配置HADOOP的环境变量，要配置bin和sbin，改完后source /etc/profile 载入配置 ---》修改配置文件（5个），都在hadoop-2.4.1/etc/hadoop/ 目录下

1，vi hadoop-env.sh　　第27行　　export JAVA_HOME=/(JDK安装的目录）

2，vi core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://server1:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop-2.6.1/tmp</value>
</property>

3，vi hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.secondary.http.address</name>
<value>server1:50090</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop-2.6.1/tmp/dfs/name</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop-2.6.1/tmp/dfs/data</value>
</property>

4，vim mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

5，vi yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>server1</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

七，HADOOP的启动

1，格式化NameNade hdfs namenode -format (hadoop namenode -format)

2，启动HADOOP start-all.sh

3，验证是否启动成功　　使用jps命令验证　　正常有6个返回的数据

4，通过浏览器登入管理界面，会有NameNode和DtatNode的现实

http://192.168.159.232:50070 （HDFS管理界面）
http://192.168.1.101:8088 （MR管理界面）

5，如果登入失败，不要慌，按照步骤走：关闭防火墙---》删除/hadoop-2.6.0/tmp/dfs/data目录下的登入连接文件---》初始化NameNode---》检查端口是否被占：netstat -tunlp |grep 9000。杀死占用端口的进程：kill 程序序列号。---》检查代码错误---》重新启动

6，配置主从机

vi slaves

主机第一行

server3
server2
server1

八，配置ssh免密登入

#生成ssh免登陆密钥
#进入到我的home目录
cd ~/.ssh

ssh-keygen -t rsa （四个回车）
执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id localhost

如果没有配置ssh登入在start-all的时候会出现starting datanode 很长一段时间这里输入密码即可继续运行

启动集群在主机启动