怎样评价聚类结果好坏？

聚类定义回顾：把一个文档集合根据文档的相似性把文档分成若干类，究竟分成多少类，这个要取决于文档集合里文档自身的性质。

　回答1：

　基于不同算法，会有不同指标，通常较通用的应该一定都会有Entropy 熵和 Accuracy, （Accuracy 里可以包含了precision, recall, f-measure.）
假设我们使用k-means算法，通常会加上SSE （Sum of squared errors）平方误差和，其他算法会有不同指标。
总体思想为一个cluster聚类内的数据点聚集在一起的密度越高，圈子越小，离centroid中心点越近，那么这个聚类的总体质量相对来说就会越好。

回答2:

聚类的评估也需要预先标注，把相似的数据放到一个堆（文件）里。算法完成后再进行测试，主要测试宏观准确度，宏观召回率，宏观混杂度。

回答3：

　　可以参考分类的precision和recall来进行评价，使用pair-wised 的方式（？？）进行计算，比如任选取两个结果，看它们是否应该在一起，在一起就是T，不在一起就是F。
其他的方法有Rand Value和Purity，其中Rand Value也是基于pair-wised的。

具体聚类效果评估方法列举介绍：

评价方法一：purity

purity方法是极为简单的一种聚类评价方法，只需计算正确聚类的文档数占总文档数的比例：