Spark 运行时相关概念

一些主要的名词概念

从集群的物理层面

从进程层面(与所执行的应用无关)

Cluster Manager：管理集群的 CPU、内存等资源，为不同的应用分配所需的资源
Worker：接受 Cluster Manager 的调度安排，分配具体的资源给应用程序，生成 Executor。每个Worker可以有多个Executor，但默认值为1

具体的APP执行

APP 执行概念的划分

SparkConf、SparkContext、SparkSession 和 StreamingContext

SparkConf：Spark运行的配置对象
SparkContext：Driver 和集群进行连接和通信的上下文，RDD 编程的入口，Spark 中使用的大多数操作/方法或函数都来自 SparkContext，例如累加器、广播变量、并行化等等
SparkSession：Spark 新的入口，内部封装了 SparkContext，其实计算也都由 SparkContext 完成，当需要使用 Spark SQL、Hive、DataFream、DataSet 时应使用 SparkSession 为入口
StreamingContext：Spark Streming 的入口，内部封装了 SparkContext，Stream 相当于 unbound 的 RDD

本地模式

本地集群模式

StandAlone 模式

Spark On Yarn（Mesos与之类似）

在使用集群部署时还可以使用参数--deploy-mode clientcluster设置选用client还是cluster模式，

client 模式：在提交App的节点启动 driver，App运行过程中该节点不可离线且应该能够与集群正常通信。此模式下可以在提交任务的终端上看到输出，应该只在调试和测试时使用此模式
cluster 模式：driver 启动在集群中的某一节点，App 提交后节点可以离线，正常生产中使用此模式