spark-repartition作用

spark-repartition

问题描述:
streaming 消费多个topic,但是不同topic的每个分区的数据量差距很大,一个数量级以上。导致每个task消费的数据量不一样,
造成严重的数据倾斜。所以需要进行一次repartition使得处理起来比较均匀。

[ 转自 : https://www.jianshu.com/p/9690f5bcd950

   作者:pcqlegend

        链接:https://www.jianshu.com/p/9690f5bcd950

  来源:简书 ]

原文地址:https://www.cnblogs.com/Jomini/p/12697659.html