聚类评价指标学习

1.外部评价标准

https://zhuanlan.zhihu.com/p/53840697

 一般分为:外部、内部、相对,这三种评价指标。

①Purity:这个计算过程没有太看懂,但是我也没有见过使用它来评价聚类效果的,并不常用。

②NMI (Normalized Mutual Information) 即归一化互信息,计算公式如下:

 看不太懂它的计算过程,值越高越好。

③兰德指数 (Rand index, RI):看不明白计算过程,值越高越好;

④调整兰德指数(Adjusted Rand index, ARI):看不明白计算过程,值越高越好;

2.无label评价

https://blog.csdn.net/u012102306/article/details/52423074

//原来没有label也可以评价啊。但是应该不会特别标注的吧?

①Compactness(紧密性)(CP):CP计算 每一个类  各点到聚类中心的平均距离;  CP越低意味着类内聚类距离越近;但没有考虑类间效果。

②Separation(间隔性)(SP):SP计算 各聚类中心两两之间平均距离; SP越高意味类间聚类距离越远;但没有考虑类内效果。

③Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI):

      DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离 求最大值

      DB越小意味着类内距离越小 同时类间距离越大 

      缺点:因使用欧式距离 所以对于环状分布  聚类评测很差

④Dunn Validity Index (邓恩指数)(DVI):

   DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)

      DVI越大意味着类间距离越大 同时类内距离越小

      缺点:对离散点的聚类测评很高、对环状分布测评效果差 

//对后两个的缺点不太明白。

原文地址:https://www.cnblogs.com/BlueBlueSea/p/13036147.html