[Machine-Learning] 机器学习中的几个度量指标

Several classiﬁcation metrics for ML/DM methods.

主要解释下机器学习（或数据挖掘）中的几个度量指标。

1. 关于 "TN/TP/FN/FP"

在预测过程中，经常会出现这几个名词，先是解释下字面意思：

可以看出来，两个字母的后面一个字母(N ** or P )，是模型预测的结果，而第一个字母(T** or **N **) 代表的是这个结果的正确与否；下面用一个表格来表示一下：

	Actual Class: X	Actual Class: not X
Predicted Class: X	TP	FP
Predicted Class: not X	FN	TN

Table.1: BINARY CONFUSION MATRIX

从上面这个表格中也能比较直观地分辨这4个指标：横轴代表结果实际的情况，而纵轴代表了该例子被模型预测的情况。

Accuracy or Proportion Correct

计算方法：(TN + TP) / (TP + TN + FP + FN)

需要注意的是：当分类问题是平衡（blanced）的时候，准确率可以较好地反映模型的优劣程度，但不适用于数据集不平衡的时候。

例如：分类问题的数据集中本来就有97% 示例是属于X，只有另外3%不属于X，所有示例都被分类成X的时候，准确率仍然高达97%，但这没有任何意义。

PPV = Positive Predictive Value 。

计算方法：TP / ( TP + FP )

模型预测属于X的示例（instance）中，预测正确（真正属于X）的比例。

Sensitivity（灵敏度） orRecall or True Positive Rate or Probability。

计算方法： TP / (TP + FN)

真正属于X的示例中，成功预测为属于X（TP）的比例。

NPV = Negative Predictive Value

计算方法：TN / (TN + FN)

模型预测不属于X的示例中，预测正确（TN）的比例；

Specificity or True Negative Rate

计算方法：TN / (TN + FP)

真正不属于X的示例中，被预测成不属于X的示例所占的比例。

FAR = 1-Specificity

计算方法：FP / (TN + FP)

真正不属于X的示例中，模型预测成属于X的（预测失败）示例所占的比例。

在分类问题中，在灵敏度和FAR两者之间要保持一个平衡（折中）。这种折中要通过ROC曲线来表示，在Y轴上表示灵敏度，在X轴上表示FAR。较高的FAR导致较高的灵敏度，较低的FAR导致较低的灵敏度。通常，FAR不能高于某个数，这就是最终分类器的选择。

在多分类问题中计算PPV和NPV是可行的，但是通常不这么做

Anna L. Buczak, Erhan Guven, "A Survey of Data Mining and Machine Learning Methods for Cyber Security Intrusion Detection", IEEE COMMUNICATIONS SURVEYS & TUTORIALS VOL. 18, NO. 2, SECOND QUARTER 2016