聚类方法总结

聚类方法总结

1.基于划分

k-means

优点：快速，简单，高效

缺点：对异常值很敏感，并且只能寻找球形的聚类

k-medoids

优点：克服k-均值法的异常值敏感性问题

缺点：计算较为复杂，耗费的计算机时间比K-means多

2.基于层次

分为两种：

划分方法（自上而下）聚集方法（自下而上）

大部分的分层方法是聚集的

代表算法：BIRCH、CURE、ROCK和CHAMELEON

3.基于密度

优点：能够发现任意形状的簇，克服了基于划分聚类的缺点

代表算法：DBSCAN，OPTICS，PreDeCon

OPTICS是DBSCAN的扩展，对用户定义的参数不太敏感

PreDeCon是DBSCAN的扩展，对高维数据集效果更好

4.基于网格

基于网格的聚类方法将数据空间量化为多分辨率网格结构。

网格结构包含许多单元，每个单元都有一个子空间，并在子空间中存储数据对象的摘要信息。

通过处理这种数据结构，聚类方法通常是快速的，并且与数据集的大小无关。

代表算法：STING WaveCluster（不适合高维数据）

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/baifan2618/p/15627850.html