聚类基础知识,看这一篇就足够了！

聚类基础知识,看这一篇就足够了！

聚类：相似的样本放在同一簇，不同的样本放在不同的簇中

图像分割可以看做是色块的聚类。

聚类原则以及相应的评价指标

原则：簇内相似度 intra cluster similarity) 高，簇间相似度 inter cluster similarity) 低。
评价指标：
- 有参考模型，即外部指标：计数法。4类点对，3种指标：Jaccard 系数、FM 指数、Rand 指数
- 直接考察聚类结果，即内部指标：距离法。DB 指数、Dunn 指数,

距离定义

非负性。
同一性。
对称性。
三角不等式性质

实例：闵可夫斯基距离。p=2时，欧氏距离，p=1时，曼哈顿距离。

聚类分类

原型聚类：聚类结构能通过一组原型刻画。

原型：指样本空间中具有代表性的点.

K-均值：最小化均方误差。1.确定每个样本的簇标记(最近)；2.通过均值来更新簇中心。

缺点：

需要提前确定k。
对噪声和离群点敏感(均值)
对初值的选择较为敏感。

混合高斯模型,隐变量-EM 算法。

基于密度的聚类：DBSCAN

基于一组“邻域” ”( 参数 є ,MinPts )来描述样本分布的紧密程度。

核心对象 core object) : 若 x j 的 є 邻域至少包含 MinPts 个样本。边缘对象，在 є 邻域内但个数<MinPts 。噪声对象，既不是核心对象也不是边缘对象。
通过密度直达、密度相连扩充簇的范围。

层次聚类：在不同层次上对数据集进行分类。从N到1。

从N个样本点开始，计算距离矩阵(proximity matrix),合并距离最近的两个簇，直到簇的个数为1。通过dendrogram图可视化。

簇距离度量

Single Link：簇之间的点的最小距离作为簇的距离。
Complete Link: 簇之间的点的最大距离作为簇的距离。

优点：

不需要提前指定K。
通过水平切割来获得指定簇个数的聚类结果。
不同层代表不同的分类。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/justisme/p/12834282.html