谱聚类

https://www.cnblogs.com/pinard/p/6221564.html

如何切图可以让子图内的点权重和高,子图间的点权重和低

为了避免最小切图导致的切图效果不佳,我们需要对每个子图的规模做出限定,一般来说,有两种切图方式,第一种是RatioCut,第二种是Ncut。

RatioCut切图为了避免第五节的最小切图,对每个切图,不光考虑最小化cut(A1,A2,...Ak)cut(A1,A2,...Ak),它还同时考虑最大化每个子图点的个数(目标函数各项除以子图的大小 cardinality )

-我们的RatioCut切图,实际上就是最小化我们的tr(HTLH)tr(HTLH)。注意到HTH=IHTH=I,则我们的切图优化目标为:

argmiHtr(HTLH)s.t.HTH=I

--> 最小的k个特征值

Ncut切图和RatioCut切图很类似,但是把Ratiocut的分母|Ai||Ai|换成vol(Ai)vol(Ai). 由于子图样本的个数多并不一定权重就大,我们切图时基于权重也更合我们的目标,因此一般来说Ncut切图优于RatioCut切图。

    谱聚类算法是一个使用起来简单,但是讲清楚却不是那么容易的算法,它需要你有一定的数学基础。如果你掌握了谱聚类,相信你会对矩阵分析,图论有更深入的理解。同时对降维里的主成分分析也会加深理解。

    下面总结下谱聚类算法的优缺点。

    谱聚类算法的主要优点有:

    1)谱聚类只需要数据之间的相似度矩阵,因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到

    2)由于使用了降维,因此在处理高维数据聚类时的复杂度比传统聚类算法好。

    谱聚类算法的主要缺点有:

    1)如果最终聚类的维度非常高,则由于降维的幅度不够,谱聚类的运行速度和最后的聚类效果均不好。

    2) 聚类效果依赖于相似矩阵,不同的相似矩阵得到的最终聚类效果可能很不同。

原文地址:https://www.cnblogs.com/cx2016/p/11443342.html