spark 性能优化--如何处理数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

1.spark数据倾斜的原因

2.spark查看数据倾斜

在spark web ui中更准确的看数据倾斜的办法,是看某个stage里各task的shuffle write、shuffle read、input size情况等,如果该stage内各task的数据量明显不太均衡,
肯定发生了数据倾斜,上面一点的metrics表格里的这三个指标的最小值、中位数、最大值如果差的很大,也说明发生了数据倾斜。

在Spark2.3及以上版本开启Dynamic Allocation特性,或Spark3中的Adaptive Execution特性后,各executor处理的stage数并不一样,很经常就会看起来各executor的数据量不同,
但其实没有发生数据倾斜,去某个stage里看各task的数据量情况和metrics表格,还是均衡的。

3.如何解决数据倾斜

原文地址:https://www.cnblogs.com/chong-zuo3322/p/13141163.html