Python机器学习——Agglomerative层次聚类

层次聚类（hierarchical clustering）可在不同层次上对数据集进行划分，形成树状的聚类结构。AggregativeClustering是一种常用的层次聚类算法。
其原理是：最初将每个对象看成一个簇，然后将这些簇根据某种规则被一步步合并，就这样不断合并直到达到预设的簇类个数。这里的关键在于：如何计算聚类簇之间的距离？
由于每个簇就是一个集合，因此需要给出集合之间的距离。给定聚类簇 $C_{i}, C_{j}$

最小距离： $d m i n (C i, C j) = min x ⃗ i \in C i, x ⃗ j \in C j d i s$ 它是两个簇的样本对之间距离的最小值。
最大距离： $d m a x (C i, C j) = max x ⃗ i \in C i, x ⃗ j \in C j d i s$ 它是两个簇的样本对之间距离的最大值。
平均距离： $d a v g (C i, C j) = 1 | C i | | C j | \sum$ 它是两个簇的样本对之间距离的平均值。

当该算法的聚类簇采用 $d_{m i n}$

下面给出算法：

输入：
- 数据集 $D =$
- 聚类簇距离度量函数
- 聚类簇数量 $K$
输出：簇划分 $C =$
算法步骤如下：
- 初始化：将每个样本都作为一个簇 $C i = [x ⃗ i], i = 1, 2, . . ., N$
- 迭代：终止条件为聚类簇的数量为K。迭代过程如下：
  - 计算聚类簇之间的距离，找出距离最近的两个簇，将这两个簇合并。
Python实战

AgglomerativeClustering是scikit-learn提供的层级聚类算法模型，其原型为：

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’, pooling_func=<function mean>)

参数

n_clusters：一个整数，指定分类簇的数量
connectivity：一个数组或者可调用对象或者None，用于指定连接矩阵
affinity：一个字符串或者可调用对象，用于计算距离。可以为：’euclidean’，’l1’，’l2’，’mantattan’，’cosine’，’precomputed’，如果linkage=’ward’，则affinity必须为’euclidean’
memory：用于缓存输出的结果，默认为不缓存
n_components：在 v-0.18中移除
compute_full_tree：通常当训练了n_clusters后，训练过程就会停止，但是如果compute_full_tree=True，则会继续训练从而生成一颗完整的树
linkage：一个字符串，用于指定链接算法
- ‘ward’：单链接single-linkage，采用 $d_{m i n}$
- ‘complete’：全链接complete-linkage算法，采用 $d_{m a x}$
- ‘average’：均连接average-linkage算法，采用 $d_{a v g}$
pooling_func：一个可调用对象，它的输入是一组特征的值，输出是一个数

属性

labels：每个样本的簇标记
n_leaves_：分层树的叶节点数量
n_components：连接图中连通分量的估计值
children：一个数组，给出了每个非节点数量

方法

fit(X[,y])：训练样本
fit_predict(X[,y])：训练模型并预测每个样本的簇标记


from sklearn import cluster
from sklearn.metrics import adjusted_rand_score
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs

"""
    产生数据
"""
def create_data(centers,num=100,std=0.7):
    X,labels_true = make_blobs(n_samples=num,centers=centers, cluster_std=std)
    return X,labels_true

"""
    数据作图
"""
def plot_data(*data):
    X,labels_true=data
    labels=np.unique(labels_true)
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    colors='rgbycm'
    for i,label in enumerate(labels):
        position=labels_true==label
        ax.scatter(X[position,0],X[position,1],label="cluster %d"%label),
        color=colors[i%len(colors)]

    ax.legend(loc="best",framealpha=0.5)
    ax.set_xlabel("X[0]")
    ax.set_ylabel("Y[1]")
    ax.set_title("data")
    plt.show()

这里写图片描述

这里写代码片
"""
    测试函数
"""  
def test_AgglomerativeClustering(*data):
    X,labels_true=data
    clst=cluster.AgglomerativeClustering()
    predicted_labels=clst.fit_predict(X)
    print("ARI:%s"% adjusted_rand_score(labels_true, predicted_labels))

"""
    考察簇的数量对于聚类效果的影响
"""
def test_AgglomerativeClustering_nclusters(*data):
    X,labels_true=data
    nums=range(1,50)
    ARIS=[]
    for num in nums:
        clst=cluster.AgglomerativeClustering(n_clusters=num)
        predicted_lables=clst.fit_predict(X)
        ARIS.append(adjusted_rand_score(labels_true, predicted_lables)) 

    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(nums,ARIS,marker="+")
    ax.set_xlabel("n_clusters")
    ax.set_ylabel("ARI")
    fig.suptitle("AgglomerativeClustering")
    plt.show()   

"""
    考察链接方式对聚类结果的影响
"""   
def test_agglomerativeClustering_linkage(*data):
    X,labels_true=data
    nums=range(1,50)
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    linkages=['ward','complete','average']
    markers="+o*"
    for i,linkage in enumerate(linkages): 
        ARIs=[]
        for num in nums:
            clst=cluster.AgglomerativeClustering(n_clusters=num,linkage=linkage)
            predicted_labels=clst.fit_predict(X)
            ARIs.append(adjusted_rand_score(labels_true, predicted_labels))
        ax.plot(nums,ARIs,marker=markers[i],label="linkage:%s"%linkage)

    ax.set_xlabel("n_clusters")
    ax.set_ylabel("ARI")
    ax.legend(loc="best")
    fig.suptitle("AgglomerativeClustering")
    plt.show()
centers=[[1,1],[2,2],[1,2],[10,20]]
X,labels_true=create_data(centers, 1000, 0.5)
test_AgglomerativeClustering(X,labels_true)
plot_data(X,labels_true)
test_AgglomerativeClustering_nclusters(X,labels_true)
test_agglomerativeClustering_linkage(X,labels_true)

这里写图片描述

可以看到当n_clusters=4时，ARI指数最大，因为确实是从四个中心点产生的四个簇。

这里写图片描述

 可以看到，三种链接方式随分类簇的数量的总体趋势相差无几。但是单链接方式ward的峰值最大