Matalab之模糊KMeans原理

对Kmeans方法相信大家都会不陌生，这是一种广泛被应用的基于划分的聚类算法。首先对它的核心思想做一个简单的介绍：

算法把n个向量x_j(1,2…,n)分为c个组G_i(i=1,2,…,c)，并求每组的聚类中心，使得非相似性（或距离）指标的价值函数（或目标函数）达到最小。当选择欧几里德距离为组j中向量x_k与相应聚类中心c_i间的非相似性指标时，价值函数可定义为：

（1.1）

这里Ji是组i内的价值函数。这样Ji的值依赖于Gi的几何特性和ci的位置。一般来说，可用一个通用距离函数d(x_k,c_i)代替组I中的向量x_k，则相应的总价值函数可表示为：

（1.2）

划分过的组一般用一个c×n的二维隶属矩阵U来定义。如果第j个数据点X(j)属于组i，则U中的元素U(i,j)为1；否则，该元素取0。一旦确定聚类中心v(i)，可导出如下使式（1.1）最小：

(1.3)

强调一点，如果v(i)是X（j）的最近的聚类中心，那么X（j）属于i组。由于一个给定数据只能属于一个组，所以隶属矩阵U具有如下性质：

（1.4）

Kmeans虽然简单实用，但是对于一些实际问题在功能上还是略显逊色，同时它还有一个先天的不足，那就是它是一种硬性的划分方法。FCM算法是对硬性划分的一种改进，其核心思想如下：

FCM把n个向量x_i（i=1,2,…,n）分为c个模糊组，并求每组的聚类中心，使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分，使得每个给定数据点用值在0，1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应，隶属矩阵U允许有取值在0，1间的元素。不过，加上归一化规定，一个数据集的隶属度的和总等于1：

（2.1）