如何在hadoop上做等频离散化

抛砖引玉，先根据特征值group by，统计每个特征值出现次数，然后reduce到一个文件，根据一个文件来统计吧，毕竟，你知道多个桶，那么每个桶多少个样本就是确定了，数数，数到一个桶样本的时候停止，就是一个阈值呗

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/dmesg/p/9965632.html