ROC曲线与AUC面积、Gini系数、KS值 之间关系

 特别注意区别:

(1)P-R曲线是分别将查准率Precision(精确率)作为纵坐标,查全率Recall(召回率)作为横坐标作的图。

(2)ROC曲线、AUC面积、Gini系数、KS值 都是基于真阳率TPR(又叫查全率、召回率、捕获率、命中率)假阳率FPR(误诊率)两个重要的指标得来的。其中AUC面积、Gini系数是直接在ROC曲线基础上进一步得到的。

一、ROC曲线

定义:

是指受试者工作特征曲线/接收器操作特性曲线(receiver operating characteristic curve),是反应敏感性和特异性连续变量的综合指标,利用构图法揭示敏感性和 特异性的相互关系,它通过将连续变量设定出多个不同的临界值(阈值),从而计算出一系列敏感性和特异性,再以敏感性(命中率)为纵坐标,特异性(误诊率)为横坐标绘制成曲线,曲线下的面积(AUC)越大,诊断准确性越高。最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

性质:

(1)在同一个ROC曲线中,靠近坐标图最左上角的点阈值取值为命中率最高,误诊率最低的临界值。

(2)对于多个ROC曲线来说,和P-R曲线图形相似,如果一条ROC曲线完全包裹另一条,则外面曲线对应模型更优

(3)当两条ROC曲线发生交叉,谁的性能更优就难以判定了,此时要根据两条ROC曲线下的面积大小比较判断,即AUC面积大者相对更优。

下面归纳一下怎么得来的。对于一个二分问题来说,会出现以下四种情况(混淆矩阵):

    预测    
     1  0  合计
实际    1  True Positive(TP)真阳  False Negative(FN)假阴  Actual Positive(TP+FN)
 0  False Positive(FP)假阳  True Negative(TN)真阴  Actual Negative(FP+TN)
   合计  Predicted Positive(TP+FP)  Predicted Negative(FN+TN)  TP+FP+FN+TN

 先把基本定义讲清楚:

TP(True Positive): 预测为1,真实为1,正例辨出——>真阳性

TN(True Negative):预测为0,真实为0,负例辨出——>真阴性

FN(False Negative): 预测为0,真实为1,正例遗漏——>假阴性

FP(False Positive): 预测为1,真实为0,负例遗漏——>假阳性

再看重要指标:

准确率 =(TP+TN) /P+N =被正确分类样本数/总样本数

查准率 /响应率 Precision = TP /(TP+FP)

查全率 /召回率/捕获率/命中率 Recall =TP /(TP+FN) ——>真阳率 TPR

误诊率 = FP /(FP+TN)——>假阳率 FPR

 

 

 以上值得注意的是:所有预测为1阳性的样本 =召回+误诊

那么,以命中率(TPR)作为纵坐标,误诊率(FPR)作为横坐标,得到ROC曲线:

            

二、AUC面积(最重要)

 AUC被定义为ROC曲线下与坐标轴围成的面积。

由于ROC曲线的定义,AUC的值不会大于1。

同时,ROC曲线一般在y=x曲线上方,所以AUC的取值范围一般在(0.5~1)。

意义:一般AUC越接近于1,表示模型整体效果越好。

 

 

三、KS值

 KS(Kolmogorov-Smirnov)值定义为TPR与FPR的差的最大值。

KS值 =max(TPR−FPR)

应用:

一般,希望模型有较大的KS值,意味着模型有较强的区分能力。但是也不是越大越好,如果KS值超过0.75,往往表示模型有异常。

KS值对应的模型预测概率即最优阈值,选择此预测概率值作为0、1分类的分界线,可使模型取得最优分类效果。

意义:

(1)KS值<0.2 ,一般认为模型区分能力较弱;

(2)KS值在[0.2 ,0.3]之间模型有一定区分能力;商业实践中能在这个区间就挺不错了。

(3)KS值在[0.3 ,0.5]之间,模型具有较强的区分能力。

 

四、Gini系数

Gini系数指ROC曲线与y=x(红线)围成的面积和中线之上的面积的(0.5)比例。AUC和Gini系数的换算关系为:

Gini系数 =2*AUC -1

【参考】

【1】如何向门外汉讲解ks值(风控模型术语)?

【2】ROC曲线、AUC、Gini系数和KS值

聪明 皮实 乐观 自省
原文地址:https://www.cnblogs.com/zwt20120701/p/15557602.html