全分布式的Hadoop虚拟机安装

在集群环境下装机、配置、运行的全过程，梳理总结到本文中。

第一部分：环境规划

•用户 hadoop 密码 hadoop

•机器

机器名称	IP地址
Master.Hadoop	192.168.1.100
Salve1.Hadoop	192.168.1.101
Salve2.Hadoop	192.168.1.102
Salve3.Hadoop	192.168.1.103

上述四个节点上均是CentOS6.4系统，并且有一个相同的用户hadoop。Master机器主要配置NameNode和JobTracker的角色，负责总管分布式数据和分解任务的执行；3个Salve机器配置DataNode和TaskTracker的角色，负责分布式数据存储以及任务的执行。

修改机器名称：vi /etc/sysconfig/network

HOSTNAME=Master.Hadoop

其他Slave1、2、3同样配置

修改Hosts:

vi /etc/hosts

192.168.1.100 Master.Hadoop

192.168.1.101 Slave1.Hadoop

192.168.1.102 Slave2.Hadoop

192.168.1.103 Slave3.Hadoop

第二部分：安装JDK并配置环境变量

安装 JDK 并配置环境变量

•2 台机器做同样的事情

•更改执行权限

•chmod +x jdk-6u24-linux-i586.bin

•安装

•./jdk-6u24-linux-i586.bin

•配置环境变量

•Home路径下，打开.bashrc文件，命令如下

•vi /etc/profile

•添加JAVA环境变量

•export JAVA_HOME=/usr/local/java

•export PATH=$JAVA_HOME/bin:$PATH

source /etc/profile

第三部分：建立互信配置SSH

配置互信

每台机器上执行

$ ssh-keygen

$ ssh-copy-id -i ~/.ssh/id_rsa.pub Master.Hadoop

$ ssh-copy-id -i ~/.ssh/id_rsa.pub Salve1.Hadoop

$ ssh-copy-id -i ~/.ssh/id_rsa.pub Salve2.Hadoop

$ ssh-copy-id -i ~/.ssh/id_rsa.pub Salve3.Hadoop

第四部分：安装Hadoop并配置环境变量

安装并配置Hadoop的环境变量

•解压Hadoop，到/usr/local路径下

• tar zxvf hadoop-1.1.2.tar.gz

•建立软连接

•ln –s hadoop-1.1.2 hadoop

•配置环境变量

•vi /etc/profile

•添加如下内容

export HADOOP_HOME=/usr/local/hadoop

export PATH=.:$HADOOP_HOME/bin:$PATH

source /etc/profile

第五部分：配置Hadoop集群

core-site.xml

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>hadoop 的运行临时文件的主目录</description>
</property>

<name>fs.default.name</name>

<value>hdfs://Master.Hadoop:9000</value>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

</configuration>

mapred-site.xml

<name>mapred.job.tracker</name>

<value>Master.Hadoop:9001</value>

</property>

</configuration>

master与slaves

•master

文件添加内容如下

Master.Hadoop

• Slaves

文件添加内容如下

Slave1.Hadoop

Slave2.Hadoop

Slave3.Hadoop

Hadoop-env.sh

•export JAVA_HOME=/usr/local/java

第六部分：启动Hadoop集群

启动Hadoop集群

•hadoop namenode -format

•start-all.sh

•start-dfs.sh start-mapred.sh

•hadoop-deamon.sh start namenode

datanode

jobtracker

tasktracker

sencondnamenode

第七部分：测试WordCount 程序

测试WordCount 程序

•hadoop fs –mkdir input

•hadoop fs –put test.txt input

•hadoop jar hadoop-examples-*.jar wordcount input output

http://blog.rayoy.com