任务中如何确定spark分区数、task数目、core个数、worker节点个数、executor数量

PASS

spark中repartition什么分区最合适
1.节点*每台核数
2.hdfs块数/128
3.goal文件切片那边 分区数接近2000,写2000

如果核数少,task数用2到3倍,文件朵的更碎,有效利用核资源
2 300 ~ 1000 节点*每台核数
太大了,>2000,写2000

原文地址:https://www.cnblogs.com/sabertobih/p/14136344.html