聚类基础知识,看这一篇就足够了!

聚类: 相似的样本放在同一簇,不同的样本放在不同的簇中

图像分割可以看做是色块的聚类。

聚类原则以及相应的评价指标

  • 原则:簇内相似度 intra cluster similarity) 高,簇间相似度 inter cluster similarity) 低。
  • 评价指标:
    • 有参考模型,即外部指标:计数法。4类点对,3种指标:Jaccard 系数、FM 指数、Rand 指数
    • 直接考察聚类结果,即内部指标:距离法。DB 指数、Dunn 指数,

距离定义

  1. 非负性。
  2. 同一性。
  3. 对称性。
  4. 三角不等式性质

实例:闵可夫斯基距离。p=2时,欧氏距离,p=1时,曼哈顿距离。

聚类分类

原型聚类:聚类结构能通过一组原型刻画。

原型:指样本空间中具有代表性的点.

  1. K-均值:最小化均方误差1.确定每个样本的簇标记(最近);2.通过均值来更新簇中心

缺点:

  • 需要提前确定k。
  • 对噪声和离群点敏感(均值)
  • 对初值的选择较为敏感。
  1. 混合高斯模型,隐变量-EM 算法。

基于密度的聚类:DBSCAN

基于一组“邻域” ”( 参数 є ,MinPts )来描述样本分布的紧密程度。

  • 核心对象 core object) : 若 x j 的 є 邻域至少包含 MinPts 个样本。边缘对象,在 є 邻域内但个数<MinPts 。噪声对象,既不是核心对象也不是边缘对象。
  • 通过密度直达密度相连扩充簇的范围。

层次聚类:在不同层次上对数据集进行分类。从N到1。

从N个样本点开始,计算距离矩阵(proximity matrix),合并距离最近的两个簇,直到簇的个数为1。通过dendrogram图可视化。

簇距离度量

  • Single Link:簇之间的点的最小距离作为簇的距离。
  • Complete Link: 簇之间的点的最大距离作为簇的距离。

优点:

  • 不需要提前指定K。
  • 通过水平切割来获得指定簇个数的聚类结果。
  • 不同层代表不同的分类。
原文地址:https://www.cnblogs.com/justisme/p/12834282.html