spark学习7(spark2.0集群搭建)

第一步:安装spark

将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下。这里需注意的是spark和hadoop有对应版本关系

[root@spark1 spark]# chmod u+x spark-2.0.0-bin-hadoop2.6.tgz
[root@spark1 spark]# tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz
[root@spark1 spark]# mv spark-2.0.0-bin-hadoop2.6 spark-2.0 #重命名

[root@spark1 spark-2.0]# vi /etc/profile
export SPARK_HOME=/usr/spark/spark-2.0
export PATH=$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
[root@spark1 spark-2.0]# source /etc/profile


第二步:修改配置文件

[root@spark1 spark-2.0]# cd conf
[root@spark1 conf]# mv spark-env.sh.template spark-env.sh
[root@spark1 conf]# vi spark-env.sh #增加如下内容
# environment variables
export JAVA_HOME=/usr/java/jdk  #jdk安装目录
export SCALA_HOME=/usr/scala/scala-2.11   #Scala安装目录
export SPARK_MASTER_IP=192.168.220.144 ##spark集群节点的master的ip ,spark1
export SPARK_WORKER_MEMORY=1g  #指定work节点能够最大分配给Excutors的内存大小
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.6.0/etc/hadoop #hadoop集群的配置文件目录 

[root@spark1 conf]# mv slaves.template slaves
[root@spark1 conf]# vi slaves #
# A Spark Worker will be started on each of the machines listed below.
spark1 #由于spark比较吃内存,可以不放主节点spark1
spark2
spark3

第三步:在spark2和spark3节点上也安装spark

传spark
[root@spark1 usr]# scp -r /usr/spark/ root@spark2:/usr/
[root@spark1 usr]# scp -r /usr/spark/ root@spark3:/usr/

传配置文件
[root@spark1 ~]# scp /etc/profile root@spark2:/etc/
[root@spark1 ~]# scp /etc/profile root@spark3:/etc/
使配置文件生效
[root@spark2 ~]# source /etc/profile
[root@spark3 ~]# source /etc/profile

[root@spark1 sbin]# start-all.sh #启动spark
[root@spark1 sbin]# jps
5555 ResourceManager
6019 Jps
5651 NodeManager
5351 SecondaryNameNode
5224 DataNode
5134 NameNode


第四步:验证spark以及进入spark-shell

[root@spark1 sbin]# spark-shell #进入spark环境


image

原文地址:https://www.cnblogs.com/wujiadong2014/p/6240382.html