Spark2.X集群运行模式

1.几种运行模式介绍

Spark几种运行模式：

1）Local

2）Standalone（Spark自己的集群管理）

3）Yarn

4）Mesos（Spark初期支持）

下载IDEA并安装，可以百度一下免费文档。

2.spark Standalone模式配置并测试

1）jdk1.8已经安装

2）scala2.11.8已经安装

3）Hadoop2.6.0已经安装

4）Spark Standalone模式配置与测试

a）配置slave

vi slaves

bigdata-pro01.kfk.com

bigdata-pro02.kfk.com

bigdata-pro03.kfk.com

b）配置spark-env.sh

vi spark-env.sh

export JAVA_HOME=/opt/modules/jdk1.8.0_60

export SCALA_HOME=/opt/modules/scala-2.11.8



SPARK_CONF_DIR=/opt/modules/spark-2.2.0-bin/conf

SPARK_MASTER_HOST=bigdata-pro02.kfk.com

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1

SPARK_WORKER_MEMORY=1g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

c）将spark 配置分发到其他节点

scp -r spark-2.2.0-bin bigdata-pro01.kfk.com:/opt/modules/

scp -r spark-2.2.0-bin bigdata-pro03.kfk.com:/opt/modules/

d）启动spark

sbin/start-all.sh

e）客户端测试

bin/spark-shell --master spark://bigdata-pro02.kfk.com:7077

d）集群运行

bin/spark-submit --master spark://bigdata-pro02.kfk.com:7077 --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt

运行这种方式前要将/opt/jars/Spark.jar分发到所有节点！

3.spark on yarn模式配置并测试

1）注意hadoop配置文件中jdk版本是否与当前jdk版本一致

2）spark on yarn 模式启动并且提交作业

#启动

启动之前先配置HADOOP_CONF_DIR项

bin/spark-shell --master yarn --deploy-mode client

#报错

解决方案见博文：Spark on Yarn运行错误：Yarn application has already ended! It might have been killed or unable to launch application master

#重新启动yarn和spark

#测试

scala> val rdd = spark.read.textFile("file:///opt/datas/test.txt")

rdd: org.apache.spark.sql.Dataset[String] = [value: string]



scala> rdd.count

res0: Long = 7

#提交作业

再这之前请修改一下源代码，并且重新编译上传jar包

bin/spark-submit --class com.zimo.spark.Test --master yarn --deploy-mode cluster /opt/jars/Spark.jar file:///opt/datas/test.txt

注意：com.zimo.spark.Test为对应jar包的Class类的路径。

成功！

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！同时也欢迎转载，但必须在博文明显位置标注原文地址，解释权归博主所有！