K-means算法-聚类

算法过程如下:

1)从N个文档随机选取K个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

3)重新计算已经得到的个各类的质心

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束

优点:1.算法快速,简单

         2.对大数据集有较高的效率并且是可伸缩性的

         3.时间复杂度接近于线性,而且适合挖掘大规模数据集。

时间复杂度O(nkt),其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。

缺点:1.K的值难以估计。

         2.初始聚类中心的选择对聚类结果有较大的影响。

         3.当数据量非常大时,算法的时间开销也非常大。

解决办法参考百度百科

原文地址:https://www.cnblogs.com/ryuham/p/4383058.html