聚类方法总结

1.基于划分

k-means 

优点:快速,简单,高效

缺点:对异常值很敏感,并且只能寻找球形的聚类

k-medoids

优点:克服k-均值法的异常值敏感性问题

缺点:计算较为复杂,耗费的计算机时间比K-means多

2.基于层次

分为两种:

划分方法(自上而下) 聚集方法(自下而上)

大部分的分层方法是聚集的

代表算法:BIRCH、CURE、ROCK和CHAMELEON

3.基于密度

优点: 能够发现任意形状的簇,克服了基于划分聚类的缺点

代表算法:DBSCAN,OPTICS,PreDeCon

OPTICS是DBSCAN的扩展,对用户定义的参数不太敏感

PreDeCon是DBSCAN的扩展,对高维数据集效果更好

4.基于网格

基于网格的聚类方法将数据空间量化为多分辨率网格结构。

网格结构包含许多单元,每个单元都有一个子空间,并在子空间中存储数据对象的摘要信息。

通过处理这种数据结构,聚类方法通常是快速的,并且与数据集的大小无关。

代表算法:STING WaveCluster(不适合高维数据)

原文地址:https://www.cnblogs.com/baifan2618/p/15627850.html