机器学习十讲（五）

机器学习十讲（五）

聚类：物以类聚，人以群分

假设

f (t x 1 + (1 - t) x 2) \leq t f (x 1) + (1 - t) f (x 2)

则称

f (\sum i = 1 n a i x i) \leq \sum i = 1 n a i f (x i)

取等号的条件是：
聚类的本质：将数据集中相似的样本进行分组的过程
每个组称为一个簇
样本没有类别标签，一种典型的无监督学习方法
这些簇满足以下两个条件
- 相同簇的样本之间距离较近
- 不同簇的样本之间距离较远
聚类方法：层次聚类、
数据集为
优化目标：最小化所有样本点到所属簇中心的距离平方和

J (r, c) = \sum j = 1 k \sum i = 1 n r i j | | x i - c j |

其中
模型：
交替迭代法：
- 固定
- 固定
优化目标：
算法流程：
- 随机选择
- - 将每个样本指派到最近的中心，形成
  - 重新计算每个类的中心为该类样本均值
- 直到中心不发生变化

高斯混合模型(GMM)

假设数据集
优化目标为最大化对数似然函数：

L L (θ) = \sum i = 1 n l n (\sum j = 1 k π j N (x i | μ j, \sum j))

EM算法

假设数据集为
似然函数
算法流程：
- 初始化参数
- 不断重复以下两步直到收敛：

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/zwx655/p/14467049.html