机器学习第五讲

第五讲、聚类

1.数学知识回顾:凸函数与jensen不等式

2.聚类简介 聚类的本质:将数据集中相似的样本进行分组的过程;

每个组称为一个簇(cluster)每个簇的样本对应一个潜在的类别;

样本没有类别标签,一种典型的无监督学习方法;

这些簇满足以下两个条件: 相同簇的样本之间距离较近;

不同簇的样本之间距离较远。

聚类方法:层次聚类、K-Means、谱聚类等。

3.举例:客户分群

4.K-Means模型

①模型求解:

交替迭代法:固定c,优化r; 固定r,优化c。

固定c,优化r:

固定r,优化c:

②算法流程

(1).随机选择k个点作为初始中心

(2).Repeat: 将每个样本指派到最近的中心,形成k个类。

重新计算每个类的中心为该类样本均值

(3).直到中心不发生变化

5.高斯混合模型

求解过程:

 

原文地址:https://www.cnblogs.com/dwx8845/p/14350306.html