ROC 曲线

1、混淆矩阵:

  预测类标  
1 0 合计

1 TP FN P
0 FP TN N
  合计 P' N' P+N

混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。

2、分类器涉及的常见评估度量:

度量 公式

准确率

(TP+TN)/(P+N)
错误率 (FP+FN)/(P+N)
真正例率 / 召回率 / 查全率 TP / P = TP / (TP+FN)
真负例率 TN / N
查准率 / 精度 TP / P' = TP / (TP+FP)
假正例率   FP / N = FP / (FP+TN)
 F1 分数

 2*(查准率*查全率)/ (查准率+查全率)=

2*TP /(P+N+TP-TN)

3、ROC 曲线

横轴:假正例率 FPR

纵轴:真正例率 TPR

1)、概率分类器对10个测试样本返回的预测概率值的排序表

编号 类标 Φ(z) TP FP TN FN TPR FPR

1

1 0.90 1 0 5 4 0.2 0
2 1 0.80 2 0 5 3 0.4 0
3 0 0.70 2 1 4 3 0.4 0.2
4 1 0.60 3 1 4 2 0.6 0.2
5 1 0.55 4 1 4 1 0.8 0.2
6 0 0.54 4 2 3 1 0.8 0.4
7 0 0.53 4 3 2 1 0.8 0.6
8 0 0.51 4 4 1 1 0.8 0.8
9 1 0.50 5 4 1 0 1.0 0.8
10 0 0.40 5 5 0 0 1.0 1.0

2)、用 Excel 绘制 ROC曲线

 

ROC 曲线之下的那部分面积值就是模型的 AUC 值。

如果模型真的很好,随着有序列表向下移动,开始会遇到真正例样本,曲线将陡峭的从 0 开始上升;之后 ,遇到的真正例样本越来越少,假正例样本越来越多,曲线变得平缓趋于水品。



原文地址:https://www.cnblogs.com/shanger/p/12924968.html