聚类相关函数 Joyce

pdist

1. D = pdist (X)

以矩阵X中每行为一个观测值（样本），计算航宇行之间的欧氏距离。得到的D是m(m-1)/2的行向量（其中m是X的行系数，即X_mxn），D=[dx_2,1, dx_3,1, ..., dx_m,1, dx_3,2, ..., dx_m,m-1]

inconsistent

1.Y = inconsistent(Z)

2.Y = inconsistent(Z, d)

Z是linkage所得的分类结果，inconsistent计算每一个新聚类中的不一致系数。如聚类为：

则6、7、8、9节点代表新生成的聚类，1-5代表原有样本。Y中是新聚类的信息，为(m-1)x4的矩阵。以(M+i)代表新生成的聚类，如这里M=5，而6=M+1...

设S_i代表除了叶节点外，所有深度低于（M+i）不超过d的节点（包括M+i节点自身）的集合。其中d为“深度”，默认d=2。（如这里，在默认值d=2情况下，S_3={6,7,8},S_4={8,9}）

inconsistent生成的Y是一个（M-1）x4 的矩阵，每一行对应一个新生成的类（如这里第一行对应聚类6，第二行对应聚类7...）其中对于Y来说：

Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i

Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i

Y(i,3) = length(S_i), the number of nodes in S_i

Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value

cluste

1.T = cluster(Z, c)

Z是由linkage分类的结果。当0<c<2时，c是不一致系数阈值，与2一样；当2<=c时，c是包含在聚类数中的最大分类数，同3。

2.T = cluster(Z,'cutoff',c)

当某一个聚类的不一致系数大于c，则视为聚类边界，从这里断开聚类，算为一类。

3.T = cluster(Z,'maxclust',n)

聚类数中产生最多n类。

dendrogram

1.H = dendrogram(Z) 2.H = dendrogram(Z,p)

生成只有顶部p个节点的冰柱图（谱系图），默认值p=30,1<p<M。dendrogram(Z,0)则表p=M的情况，显示所有叶节点。

cophenet

1.c = cophenet(Z,Y) 2.[c,d] = cophenet(Z,Y)

计算相关系数，用来度量这种分类的失真度，即由分类确定的结构与数据间的拟合程度。其中Z是linkage输出，距离信息包含在Z（：，3）；Y是pdit输出。

在2中，d是与Y形式一样的，代表聚类树中原样本之间距离的向量。

clusterdata

T = clusterdata(X, cutoff)

等价于：Y=pdist(X,’euclid’)
Z=linkage(Y,’single’)
T=cluster(Z,cutoff)