聚类的数据量过大的问题

需要对一维数值的数据集聚类,用kmeans算法,问题是数据太大了,用单机来运行内存不够用,速度也不行。用mapreduce来跑也是比较慢。暂时没什么好的方法,只好把数据裁减到1/10,再运行就可以跑出结果,当然这样得出的结果会有误差。

原文地址:https://www.cnblogs.com/agnostic/p/3767716.html