spark 性能优化--如何处理数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

1.spark数据倾斜的原因

2.spark查看数据倾斜

在spark web ui中更准确的看数据倾斜的办法，是看某个stage里各task的shuffle write、shuffle read、input size情况等，如果该stage内各task的数据量明显不太均衡，
肯定发生了数据倾斜，上面一点的metrics表格里的这三个指标的最小值、中位数、最大值如果差的很大，也说明发生了数据倾斜。

在Spark2.3及以上版本开启Dynamic Allocation特性，或Spark3中的Adaptive Execution特性后，各executor处理的stage数并不一样，很经常就会看起来各executor的数据量不同，
但其实没有发生数据倾斜，去某个stage里看各task的数据量情况和metrics表格，还是均衡的。

spark 性能优化--如何处理数据倾斜

1.spark数据倾斜的原因

2.spark查看数据倾斜

3.如何解决数据倾斜