分类器评估方法：准确率和混淆矩阵

注：本文是人工智能研究网的学习笔记

准确率

accuracy_score：函数计算分类准确率，返回被正确分类的样本比例（default）或者是数量（normalize=False）

在多标签分类问题中，该函数返回子集的准确率，对于一个给定的多标签样本，如果预测得到的标签集合与该样本真正的标签集合严格吻合，则subset accuracy =1.0否则是0.0

混淆矩阵

在机器学习中尤其是统计分类中，混淆矩阵（confusion matrix），也被称为错误矩阵（error matrix）。

矩阵的每一列表达了分类器对于样本的类别预测，二矩阵的每一行则表达了版本所属的真实类别

之所以叫做’混淆矩阵‘，是因为能够很容易的看到机器学习有没有将样本的类别给混淆了。

Table of confusion
在预测分析中（predictive analytics）中table of confusion有时也叫（confusion matrix）是一个两行两列的表，这个表报告了四个预测相关的事件发生的数量： false positive， False negative, true positve和false negative。这个表可以让我们更加详细的分析预测系统的性能，热不是仅仅用一个准确率。

Accuracy是一个不可靠的分类器性能度量标准，因为当数据集中不同类的别的样本数量分布不平衡的时候，它将会产生误导人的结果。

比如说，如果数据集中有95个猫和5个狗，分类器会简单的将其分为猫，这样的准确率是95%。

最终的table of confusion是把所有的table of confusion平均组合起来的结果。