如何在hadoop上做等频离散化

抛砖引玉,先根据特征值group by,统计每个特征值出现次数,然后reduce到一个文件,根据一个文件来统计吧,毕竟,你知道多个桶,那么每个桶多少个样本就是确定了,数数,数到一个桶样本的时候停止,就是一个阈值呗

原文地址:https://www.cnblogs.com/dmesg/p/9965632.html