K-means算法-聚类

K-means算法-聚类

算法过程如下：

1）从N个文档随机选取K个文档作为质心

2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类

3）重新计算已经得到的个各类的质心

4）迭代2~3步直至新的质心与原质心相等或小于指定阈值，算法结束

优点：1.算法快速，简单

2.对大数据集有较高的效率并且是可伸缩性的

3.时间复杂度接近于线性，而且适合挖掘大规模数据集。

时间复杂度O(nkt),其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

缺点：1.K的值难以估计。

2.初始聚类中心的选择对聚类结果有较大的影响。

3.当数据量非常大时，算法的时间开销也非常大。

解决办法参考百度百科

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/ryuham/p/4383058.html