028 Partitioner:数据分区器

Partitioner:数据分区器,决定数据到下一个RDD的时候在那一个分区
  HashPartitioner:根据key的hashCode值来实现
  RangePartitioner: 根据key所属范围的进行分区
    1. 先进行数据抽样,对抽样数据进行排序后得到分区的边界数据
    2. 根据key在边界数据中所属的位置来判断分区的id


注意:90%的API默认使用HashPartitioner分区器,sortByKey使用RangePartitioner(RangePartitioner主要用于需要按照分区进行数据排序的)

原文地址:https://www.cnblogs.com/juncaoit/p/6527975.html