Spark概念理解

driver和executor的参数设置在yarn模式下才会起作用:
--driver-cores:Spark应用Driver的CPU核数,Driver主要完成任务的调度以及和executor和cluster manager进行协调。
--executor-cores:Spark应用每个Executor的CPU核数,各个 executor 使用的并发线程数目,也即每个 executor 最大可并发执行的 Task 数目。
--executor-memory:各个 executor 使用的最大内存,不可超过单机的最大可使用内存。
--num-executors:创建多少个 executor。

Spark性能调优之合理设置并行度:

并行度主要受--executor-cores与--num-executors的影响:总cpu core数量为executorCores * numExecutors,官方推荐task数量一般设置为总cpu core数量的2~3倍. 每个stage的task数量即rdd划分的partitions数量.
详见:https://www.cnblogs.com/jxhd1/p/6702218.html


Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解:
详见:https://www.cnblogs.com/liuys635/p/11083338.html


SparkConf属性:
详见:http://doc.codingdict.com/spark/20/

Spark中配置环境变量(非SparkConf中设置的变量,而是os.environ中设置的环境变量):

方法1:直接在spark-env.sh中添加环境变量

export S3_ACCESS_KEY_ID=xxx
export S3_SECRET_ACCESS_KEY=xxx
export S3_ENDPOINT=xxx

这样所有work nodes节点均有效,也无需主程序中设置os.environ

缺点:写死环境变量,无法动态修改

方法2:在SparkContent的environment变量中设置

可以在创建SparkContent传入该字典,也可在创建SparkContent后再设置

缺点:主程序若也要用到该环境变量仍需要通过os.environ设置

sc = SparkContext(appName='data model operator')
sc.environment['S3_ENDPOINT'] = 'xxx'
sc.environment['S3_USE_HTTPS'] = 'xxx'
sc.environment['S3_VERIFY_SSL'] = 'xxx'

os.environ['S3_ENDPOINT'] = 'xxx'
os.environ['S3_USE_HTTPS'] = 'xxx'
os.environ['S3_VERIFY_SSL'] = 'xxx'
原文地址:https://www.cnblogs.com/luckyboylch/p/12579375.html