hive全局排序和局部排序

经典需求：数据量大，不能用orderby进行全局排序，但是需求就是要全局排序

思路：参照hbase的设计范围分区+局部有序 (distribute by sort by +指定范围)

如果采样了1G的数据，想分成10个分区

1.从0读到100M的时候，把第100m位置的那条记录，分桶字段拿出来

2.100M-200M的区间范围

...

一定能确定每个区间的分桶字段的起始方位

如何做采样

set mapreduce.job.reduces=3;
select * from student distribute by (case when age>20 then 0 when age > 18 then 1 else 2 end) sort by age desc;

distribute by :分桶查询，条件：必须设置reduce的个数 set mapreduce.job.reduces=4; 查询中必须设置distribute by 设置分桶规则，默认是hash 散列
cluster by : 如果sort by 和distribute by 的字段一致就可以设置cluster by

结果得到了四段有序的结果集，分区是按照数值/分区数，余数相同的为同一个分区