Pig order by用法举例

sorted = order data by $0;

 
数值类型按照数值大小比较
chararray类型按照字符的字典顺序比较
bytearray按照字节的字典顺序比较
复杂类型(map、tuple、bag)不能比较
null是最小的
 
触发reduce阶段
sorted = order data by $0;
sorted = order data by $0 desc, $1 asc;

  

order by是全局排序,有reduce阶段,有可能产生数据倾斜,为解决这个问题,Pig在shuffle过程中使用了分割器,根据取样结果将数据相对均匀的分摊给reducer,这样产生的弊端是同一个排序键对应的数据有可能保存在不同的文件里。
原文地址:https://www.cnblogs.com/lishouguang/p/4559309.html