K-Mean聚类算法

K-Means 是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值 是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成.

优缺点：

优点:
属于无监督学习，无须准备训练集
原理简单，实现起来较为容易
结果可解释性较好

缺点:
需手动设置k值。 在算法开始预测之前，我们需要手动设置k值，即估计数据大概的类别个数，不合理的k值会使结果缺乏解释性
可能收敛到局部最小值, 在大规模数据集上收敛较慢
对于异常点、离群点敏感

流程伪代码：

创建 k 个点作为起始质心（通常是随机选择）
当任意一个点的簇分配结果发生改变时（不改变时算法结束）
    对数据集中的每个数据点
    　　对每个质心
        计算质心与数据点之间的距离
        将数据点分配到距其最近的簇
    对每一个簇, 计算簇中所有点的均值并将均值作为质心

二分K-Mean聚类算法流程：

将所有点看成一个簇
当簇数目小于 k 时
    对于每一个簇
        计算总误差
        在给定的簇上面进行 KMeans 聚类（k=2）
        计算将该簇一分为二之后的总误差
    选择使得误差最小的那个簇进行划分操作

核心代码：

 1 def kMeans(dataMat, k, distMeas=distEclud, createCent=randCent):
 2     '''
 3     创建K个质心,然后将每个店分配到最近的质心,再重新计算质心。
 4     这个过程重复数次,直到数据点的簇分配结果不再改变为止
 5     :param dataMat: 数据集
 6     :param k: 簇的数目
 7     :param distMeans: 计算距离
 8     :param createCent: 创建初始质心
 9     :return:
10     '''
11     # 获取样本数和特征数
12     m, n = shape(dataMat)
13     # 初始化一个矩阵来存储每个点的簇分配结果
14     # clusterAssment包含两个列:一列记录簇索引值,第二列存储误差(误差是指当前点到簇质心的距离,后面会使用该误差来评价聚类的效果)
15     clusterAssment = mat(zeros((m, 2)))
16     # 创建质心,随机K个质心
17     centroids = createCent(dataMat, k)
18     # 初始化标志变量,用于判断迭代是否继续,如果True,则继续迭代
19     clusterChanged = True
20     while clusterChanged:
21         clusterChanged = False
22         # 遍历所有数据找到距离每个点最近的质心,
23         # 可以通过对每个点遍历所有质心并计算点到每个质心的距离来完成
24         for i in range(m):
25             minDist = inf
26             minIndex = -1
27             for j in range(k):
28                 # 计算数据点到质心的距离
29                 # 计算距离是使用distMeas参数给出的距离公式,默认距离函数是distEclud
30                 distJI = distMeas(centroids[j, :], dataMat[i, :])
31                 # 如果距离比minDist(最小距离)还小,更新minDist(最小距离)和最小质心的index(索引)
32                 if distJI < minDist:
33                     minDist = distJI
34                     minIndex = j
35             # 如果任一点的簇分配结果发生改变,则更新clusterChanged标志
36             if clusterAssment[i, 0] != minIndex: clusterChanged = True
37             # 更新簇分配结果为最小质心的index(索引),minDist(最小距离)的平方
38             clusterAssment[i, :] = minIndex, minDist ** 2
39         # print(centroids)
40         # 遍历所有质心并更新它们的取值
41         for cent in range(k):
42             # 通过数据过滤来获得给定簇的所有点
43             ptsInClust = dataMat[nonzero(clusterAssment[:, 0].A == cent)[0]]
44             # 计算所有点的均值,axis=0表示沿矩阵的列方向进行均值计算
45             centroids[cent, :] = mean(ptsInClust, axis=0)
46     # 返回所有的类质心与点分配结果
47     return centroids, clusterAssment