全排序

描述的是reduce个数大于1的情况。全排序就是生存的多个文件里面都是按顺序的所有的文件的数据也是按顺序的。

1.思路

  a.修改分区partition算法,默认是HashPartition;

    例如:

      

public int getPartition(LongWritable key, Text value, int numPartitions) {
  if(key.get() >1000){
    return 0;
  }else if(key.get()>500 && key.get()<=1000){
    return 1;
  }else{
    return 2;
  }
}

    问题:数据边界

  b.采用InputSample和TotalOrderPartition来实现动态分区;

原文地址:https://www.cnblogs.com/lyr999736/p/9381657.html