spark--2.部署高可用的Spark集群

这里已经假设部署了hadoop2.6.0 HA集群:
节点安排如下:

节点名称 角色
itcast01、itcast02 Namenode和zkfc
itcast03、itcast04 ResourceManager
itcast05、itcast06、itcast07 QuorumPeerMain JournalNode、Datanode、NodeManager


1.在spark官网下载安装包,注意版本必须匹配,否则自己编译源码后再安装,这里选择 spark-1.3.1-bin-hadoop2.6 版本


2.在scala官网下载安装包,选择版本scala-2.10.4

3.上传spark和scala安装包到各个节点:

节点角色安排:

节点名称 角色
itcast01、itcast02 Spark Master
itcast05、itcast06、itcast07 Spark slave


4.通过scp命令拷贝安装包至各个节点(已经开启ssh互信):

root@itcast01> scp scala-2.10.4.tgz spark-1.3.1-bin-hadoop2.6.tgz root@itcast07:/root


5.在各个节点上(12567)解压安装包,并配置环境变量配置文件 /etc/profile

解压:

[root@itcast01 ~]# tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz -C /itcast/

---

[root@itcast01 ~]# tar -zxvf scala-2.10.4.tgz -C /itcast/

/itcast是根目录下一个文件夹,一般用于放置hadoop集群文件,这里你可以自己设定

配置环境变量:
编辑配置文件:

vim /etc/profile

在/etc/profile 文件中添加:

export SCALA_HOME=/itcast/scala-2.10.4

export SPARK_HOME=/itcast/spark-1.3.1-bin-hadoop2.6

并在PATH变量中添加  $SCALA_HOME/bin:$SPARK_HOME/bin:


6.Spark配置文件的修改


修改配置文件conf/spark-env.sh

#java安装目录
JAVA_HOME=/usr/java/jdk1.7.0_79
#scala安装目录
SCALA_HOME=/itcast/scala-2.10.4

#hadoop 配置文件的目录(HA必须指定)
HADOOP_CONF_DIR=/itcast/hadoop-2.6.0/etc/hadoop/

##Spark集群配置参数##
 #配置master的端口号
SPARK_MASTER_PORT=7077
 #配置master的web端口号
SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1


修改配置文件conf/slaves
指定Spark的所有Slave节点地址,以IP或者hostname的形式标识

itcast05
itcast06
itcast07

7.拷贝配置文件到各个节点

     scp spark-env.sh slaves root@$[HOSTNAME]:/itcast/spark-1.3.1-bin-hadoop2.6/conf/ 

8.启动集群

启动顺序:Zookeeper -> Hadoop -> Spark

在3个Zookeeper节点分别执行:

【ZOOHOME】/bin/zkServer.sh start 

namenode节点执行:

【HADOOP_HOME】/sbin/start-dfs.sh

resourcemanager节点执行:

【HADOOP_HOME】/sbin/start-yarn.sh

resourcemanager热备节点执行:

【HADOOP_HOME】/sbin/yarn-dameons.sh start resourcemanager

SparkMaster节点执行:

【SPARK_HOME】/sbin/start-all.sh

SparkMaster热备节点执行:

【SPARK_HOME】/sbin/start-master.sh 

9.检查
在web浏览器栏输入:http://【SPARK_MASTER】:8080/
这里写图片描述

第二行的 cluster mode 说明spark目前以集群模式启动
成功!

原文地址:https://www.cnblogs.com/shiguangmanbu2016/p/5932820.html