Kmeans

K-Mmeans算法使用贪心策略求得一个近似解，具体步骤如下：

[u_{1},u_{2}...u_{k} ]

[dist(x^{(i)},u_{i}) ]

，然后把样本点划入最近的簇中

[x^{(i)}in u^{_{nearest}} ]

[u_{i}: = frac{1}{left | c_{i} ight |} sum_{xin C_{i}}x ]

K-means算法得到的聚类结果严重依赖与初始簇中心的选择，如果初始簇中心选择不好，就会陷入局部最优解，避免这种情况的简单方法是重复多次运行K-means算法，然后取一个平均结果。

K-means算法初始中心点的选取，改进后的选取流程如下：

K-means++ 能显著的改善分类结果的最终误差。

尽管计算初始点时花费了额外的时间，但是在迭代过程中，k-mean 本身能快速收敛，因此算法实际上降低了计算时间。

网上有人使用真实和合成的数据集测试了他们的方法，速度通常提高了 2 倍，对于某些数据集，误差提高了近 1000 倍。