转：谱聚类

聚类（clustering）

1、ground truth ：真实值，以后数据的真实值用这个词语表达

2、K-means=EM, 聚类中k均值算法其实就是一个EM算法，其中第二步把数据点归并到相应的中心点为E，根据归并后的数据点进行计算重新产生新的中心点为M，通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的

k均值的缺点

初始时需要指定K值

无法产生凹型的类别，例如香蕉月牙型，只能产生类圆的形状

对孤立点比较敏感，需要降噪处理

3、层次聚类对大规模数据处理是否合适（有待进一步查资料）

合适，叶子节点进行合并需要n^2次的计算，以后类间合并时不再需要计算，算法具体运行时间应该以最底层的叶子节点合并的时间为主。

可以查看发表在《science》上面的一篇论文，链接不详

4、谱聚类中为何要使用矩阵的特征值，特征向量？

从最原始的线性代数角度进行考虑，矩阵是一种线性变化，特征向量就是在这个变化当中不变的向量。说白了就是在变化当中寻找不变的东西。

谱聚类与图的关系：

数据聚类->图分割->图分割规则（求解拉普拉斯矩阵的特征问题L=D-W）【RatioCut, Ncut】

数据点->图的顶点

相互关系->图的边

谱聚类的一般步骤：

输入：聚类数K，原始数据

a、求出邻接矩阵W

b、求拉普拉斯矩阵L L=D-W D为度量矩阵，Dii=∑jWij

c、计算特征向量矩阵U

d、用K-means聚类

输出：k个聚类

只有拉普拉斯矩阵才能按照如下分解

D^(-1/2)WD^(-1/2)=λ1z1z1T+λ2z2z2T+...λnznznT |λ1|≥|λ2|≥...|λn|

其中每个特征向量彼此正交，如果要分K个类别，只需要取前k项即可，类似于PCA主成分分析法

谱聚类的不足之处：

a、新增节点处理不好，需要重新计算拉普拉斯矩阵

b、计算量大

c、online

5、谱聚类中随机游走的过程？