机器学习： K-means 聚类

今天介绍机器学习里常见的一种无监督聚类算法，K-means。我们先来考虑在一个高维空间的一组数据集， $S = {x_{1}, x_{2}, . . ., x_{N}}$ ， $x \in R^{D}$ ，假设我们需要把这组数据聚集长 $K$ 类，不失一般性，我们可以假设每个聚好的类都有一个中心 $μ_{k}$ ，如果聚类完成的话，那么数据集中的每一个点 $x$ 会有一个中心 $μ_{k}$ 离这个点的距离最近。可以构造一个变量 $r_{n k} = {0, 1}$ 表示变量 $x$ 离第 $k$ 类最近 $r_{n k} = 1$ ，离其他的类更远 $r_{n j} = 0, j \neq k$ ，那么我们可以定义如下的目标函数：

J = \sum_{n = 1}^{N} \sum_{k = 1}^{K} r_{n k} | | x_{n} - μ_{k} | |^{2}

这个目标函数就是要求 $r_{n k}, μ_{k}$ ，使得目标函数 $J$ 的值最小。

为了解决上面这个问题，因为要同时求 $r_{n k}, μ_{k}$ 两个变量，所以我们会采取分步迭代的方法，当我们求 $r_{n k}$ 可以让 $μ_{k}$ 固定不动，当我们求 $μ_{k}$ 的时候，可以让 $r_{n k}$ 固定不动。

很显然，当我们求 $r_{n k}$ ，只有比较每一个 $x_{n}$ 与 $μ_{k}$ 的距离，选择距离最近的一个类即可:

r_{n k} = 1 if = \arg m i n_{j} | | x_{n} - μ_{j} | |^{2}

而求 $μ_{k}$ 的时候，我们可以让 $r_{n k}$ 固定不动，对目标函数 $J$ 求导，

2 \sum_{n = 1}^{N} r_{n k} (x_{n} - μ_{k}) = 0

从而我们可以求得 $μ_{k}$ :

μ_{k} = \frac{\sum_{n} r_{n k} x_{n}}{\sum_{n} r_{n k}}

通过这样的反复迭代，直到所有的 $r_{n k}, μ_{k}$ 都不再变化。