Spark2.X集群运行模式


1.几种运行模式介绍

Spark几种运行模式:

1)Local

2)Standalone(Spark自己的集群管理)

3)Yarn

4)Mesos(Spark初期支持)

下载IDEA并安装,可以百度一下免费文档。

2.spark Standalone模式配置并测试

1)jdk1.8已经安装

2)scala2.11.8已经安装

3)Hadoop2.6.0已经安装

4)Spark Standalone模式配置与测试

a)配置slave

vi slaves

bigdata-pro01.kfk.com

bigdata-pro02.kfk.com

bigdata-pro03.kfk.com

b)配置spark-env.sh

vi spark-env.sh

export JAVA_HOME=/opt/modules/jdk1.8.0_60

export SCALA_HOME=/opt/modules/scala-2.11.8



SPARK_CONF_DIR=/opt/modules/spark-2.2.0-bin/conf

SPARK_MASTER_HOST=bigdata-pro02.kfk.com

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1

SPARK_WORKER_MEMORY=1g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

c)将spark 配置分发到其他节点

scp -r spark-2.2.0-bin bigdata-pro01.kfk.com:/opt/modules/

scp -r spark-2.2.0-bin bigdata-pro03.kfk.com:/opt/modules/

d)启动spark

sbin/start-all.sh

e)客户端测试

bin/spark-shell --master spark://bigdata-pro02.kfk.com:7077

d)集群运行

bin/spark-submit --master spark://bigdata-pro02.kfk.com:7077 --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt

运行这种方式前要将/opt/jars/Spark.jar分发到所有节点!


3.spark on yarn模式配置并测试

1)注意hadoop配置文件中jdk版本是否与当前jdk版本一致

2)spark on yarn 模式启动并且提交作业

#启动

启动之前先配置HADOOP_CONF_DIR项


bin/spark-shell --master yarn --deploy-mode client

#报错

解决方案见博文:Spark on Yarn运行错误:Yarn application has already ended! It might have been killed or unable to launch application master

#重新启动yarn和spark

#测试

scala> val rdd = spark.read.textFile("file:///opt/datas/test.txt")

rdd: org.apache.spark.sql.Dataset[String] = [value: string]



scala> rdd.count

res0: Long = 7

#提交作业

再这之前请修改一下源代码,并且重新编译上传jar包

bin/spark-submit --class com.zimo.spark.Test --master yarn --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt

注意:com.zimo.spark.Test为对应jar包的Class类的路径。


成功!


以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主所有!

原文地址:https://www.cnblogs.com/zimo-jing/p/10731058.html