Linux下配置集群

（集群的机子必须都关闭防火墙，否则互相不能顺畅访问！！以致诸多错误！！）

首先需有jdk，且可运行，即有jdk环境变量
建议用我的目录/opt/app/hadoop-2.7.2
-----------------------------------------------------------------------------------------------------------------------

安装hadoop：

一、将hadoop包解压到/opt/app：tar 包名 -C /opt/app
二、添加hadoop的全局变量： vim /etc/profile
添加： export HADOOP_HOME=/opt/app/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
三、刷新变量配置：source /etc/profile

-------------------------------------到此已配好hadoop----------------------------------------------------------------------

配置集群：（初始的本地模式、伪分布模式、完全分布模式）

伪分布模式（伪分布是一台机子承担全部角色）：
1、hdfs：
　　①配置文件（etc/hadoop）：
　　Ⅰ、hadoop-env.sh 添加：export JAVA_HOME=/opt/app/jdk1.8.0_131

　　Ⅱ、core-site.xml 在<configuration>下面添加：
　　　　
　　　　<property>
　　　　　　<name>fs.defaultFS</name>
　　　　　　<value>hdfs://hadoop11:9000</value>
　　　　</property>
　　　　
　　　　<property>
　　　　　　<name>hadoop.tmp.dir</name>
　　　　　　<value>/opt/app/hadoop-2.7.2/data/tmp</value>
　　　　</property>

　　Ⅲ、hdfs-site.xml 在<configuration>下面添加：
　　　　
　　　　<property>
　　　　　　<name>dfs.replication</name>
　　　　　　<value>1</value>
　　　　</property>

②启动集群：（a）格式化namenode（第一次启动时格式化，以后就不要总格式化）：
　　　　　　　　　　　　bin/hdfs namenode -format
　　　　（b）启动namenode：sbin/hadoop-daemon.sh start namenode
　　　　（c）启动datanode：sbin/hadoop-daemon.sh start datanode
2、yarn ：
　①配置文件：
　　Ⅳ、yarn-env.sh 添加：export JAVA_HOME=/opt/app/jdk1.8.0_131
　　Ⅴ、yarn-site.xml 在<configuration>下面添加：
　　　　
　　　　<property>
　　　　　　<name>yarn.nodemanager.aux-services</name>
　　　　　　<value>mapreduce_shuffle</value>
　　　　</property>
　　　　
　　　　<property>
　　　　　　<name>yarn.resourcemanager.hostname</name>
　　　　　　<value>hadoop11</value>
　　　　</property>

Ⅵ、mapred-env.sh 在<configuration>下面添加：export JAVA_HOME=/opt/app/jdk1.8.0_131
　　Ⅶ、mapred-site.xml(对mapred-site.xml.template重新命名) 在<configuration>下面添加：
　　　　
　　　　<property>
　　　　　　<name>mapreduce.framework.name</name>
　　　　　　<value>yarn</value>
　　　　</property>
　　　　<property>
　　　　　　<name>mapreduce.jobhistory.address</name>
　　　　　　<value>hadoop11:10020</value>
　　　　</property>
　　　　<property>
　　　　　　<name>mapreduce.jobhistory.webapp.address</name>
　　　　　　<value>hadoop11:19888</value>
　　　　</property>

②启动yarn：　（a）启动ResourceManager：sbin/yarn-daemon.sh start resourcemanager
　　　　　　（b）启动NodeManager：sbin/yarn-daemon.sh start nodemanager

------------------------------------------------------------------------------------------------------------------------------------

完全分布模式（伪分布集群，分配角色）
准备至少三台配好jdk的机子
将配置文件修改，分配角色：

hadoop11

hadoop12

hadoop13

hadoop14

hdfs

NameNode

DataNode

SecondaryNameNode

DataNode

yarn

NodeManager

ResourceManager

NodeManager

①配置文件（etc/hadoop）：
Ⅰ、hadoop-env.sh 　　添加：export JAVA_HOME=/opt/app/jdk1.8.0_131
Ⅱ、core-site.xml 　　在<configuration>下面添加：
　　
　　<property>
　　　　<name>fs.defaultFS</name>
　　　　<value>hdfs://hadoop11:9000</value>
　　</property>
　　
　　<property>
　　　　<name>hadoop.tmp.dir</name>
　　　　<value>/opt/module/hadoop-2.7.2/data/tmp</value>
　　</property>

Ⅲ、hdfs-site.xml 　　在<configuration>下面添加：
　　
　　<property>
　　　　<name>dfs.replication</name>
　　　　<value>3</value>
　　</property>
　　<property>
　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　<value>hadoop13:50090</value>
　　</property>

Ⅳ、yarn-env.sh　　添加：export JAVA_HOME=/opt/app/jdk1.8.0_131
Ⅴ、yarn-site.xml 　　在<configuration>下面添加：
　　
　　<property>
　　　　<name>yarn.nodemanager.aux-services</name>
　　　　<value>mapreduce_shuffle</value>
　　</property>
　　
　　<property>
　　　　<name>yarn.resourcemanager.hostname</name>
　　　　<value>hadoop12</value>
　　</property>
Ⅵ、mapred-env.sh 　　在<configuration>下面添加：export JAVA_HOME=/opt/app/jdk1.8.0_131
Ⅶ、mapred-site.xml(对mapred-site.xml.template重新命名) 　　在<configuration>下面添加：
　　
　　<property>
　　　　<name>mapreduce.framework.name</name>
　　　　<value>yarn</value>
　　</property>
　　<property>
　　　　<name>mapreduce.jobhistory.address</name>
　　　　<value>hadoop11:10020</value>
　　</property>
　　<property>
　　　　<name>mapreduce.jobhistory.webapp.address</name>
　　　　<value>hadoop11:19888</value>
　　</property>
Ⅷ、slaves　　将local删掉，添加：
　　hadoop11
　　hadoop12
　　hadoop13
　　hadoop14

②分发hadoop：无密码通讯下
　　scp /opt/app/hadoop-2.7.2 root@hadoop12

　　scp /opt/app/hadoop-2.7.2 root@hadoop13

　　scp /opt/app/hadoop-2.7.2 root@hadoop14
③启动集群：（a）在主节点hadoop11上格式化NameNode（集群成功后无需再格式化）：

　　　　　　　　　　bin/hdfs namenode -format
　　　　　　（b）在主节点hadoop11上启动dfs：sbin/start-dfs.sh
　　　　　　（c）在resourcemanager机子上启动yarn（）：sbin/start-yarn.sh

　　　　　　　　说明：Namenode和ResourceManger如果不是同一台机器，不能在NameNode上启

　　　　　　　　　　　动 yarn，应该在ResouceManager所在的机器上启动yarn

　　查看进程： jps
　　停止进程：（a）停止dfs：sbin/stop-dfs.sh
　　　　　　　（b）停止yarn：sbin/stop-yarn.sh

异国有风雪，天涯莫思君分享一些学Java开发路上的疑难疑点，希望关注方便采纳