聚类相关函数 Joyce

pdist

1. D = pdist (X)

        以矩阵X中每行为一个观测值(样本),计算航宇行之间的欧氏距离。得到的D是m(m-1)/2的行向量(其中m是X的行系数,即Xmxn),D=[dx2,1, dx3,1, ..., dxm,1, dx3,2, ..., dxm,m-1]

2.

inconsistent

1.Y = inconsistent(Z)

2.Y = inconsistent(Z, d)

       Z是linkage所得的分类结果,inconsistent计算每一个新聚类中的不一致系数。如聚类为:

      则6、7、8、9节点代表新生成的聚类,1-5代表原有样本。Y中是新聚类的信息,为(m-1)x4的矩阵。以(M+i)代表新生成的聚类,如这里M=5,而6=M+1...

      设S_i代表除了叶节点外,所有深度低于(M+i)不超过d的节点(包括M+i节点自身)的集合。其中d为“深度”,默认d=2。(如这里,在默认值d=2情况下,S_3={6,7,8},S_4={8,9}

      inconsistent生成的Y是一个(M-1)x4 的矩阵,每一行对应一个新生成的类(如这里第一行对应聚类6,第二行对应聚类7...)其中对于Y来说:

          Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i

          Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i

          Y(i,3) = length(S_i), the number of nodes in S_i

          Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value

cluste

1.T = cluster(Z, c)

        Z是由linkage分类的结果。当0<c<2时,c是不一致系数阈值,与2一样;当2<=c时,c是包含在聚类数中的最大分类数,同3。

2.T = cluster(Z,'cutoff',c)

       当某一个聚类的不一致系数大于c,则视为聚类边界,从这里断开聚类,算为一类。

3.T = cluster(Z,'maxclust',n)

       聚类数中产生最多n类。

dendrogram

1.H = dendrogram(Z)
2.H = dendrogram(Z,p)

        生成只有顶部p个节点的冰柱图(谱系图),默认值p=30,1<p<M。dendrogram(Z,0)则表p=M的情况,显示所有叶节点。

cophenet

1.c = cophenet(Z,Y)
2.[c,d] = cophenet(Z,Y)

        计算相关系数,用来度量这种分类的失真度,即由分类确定的结构与数据间的拟合程度。其中Z是linkage输出,距离信息包含在Z(:,3);Y是pdit输出。

        在2中,d是与Y形式一样的,代表聚类树中原样本之间距离的向量。

clusterdata

T = clusterdata(X, cutoff)

等价于:Y=pdist(X,’euclid’)
           Z=linkage(Y,’single’)
           T=cluster(Z,cutoff)

原文地址:https://www.cnblogs.com/joycelee/p/2969945.html