top-N 抽样

1，使用hive标记random：（如果是mr，就自己标记random值）

use ps;

set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;

insert overwrite directory "*"

select url, count(1), min(link_found_time), rand()
from entry
where *='20151106'

group by url;

2，数据抽样：

在各个分区各使用小顶推实现top-N，

3，得到top-N

TopN：使用小顶堆实现。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/i80386/p/5192428.html