数据挖掘【6】分类问题(三)

紧接上期,再向大家介绍一个概念,混淆矩阵(Confusion Matrix),这个名字起的非常好,很多人学到这里,看到这个矩阵就混淆了。

  在两分类问题中,我们将两类中的一类称为正类(Positive),另一类称为负类(Negative),为了便于理解,设有一个两分类问题,区分男女,男为正类,女为负类,做一个中文的混淆矩阵:

                    混淆矩阵
             实际值  
  预测合计
预测
预测为男,实际为男 预测为男,实际为女 预测男人总数
预测为女,实际为男 预测为女,实际为女 预测女人总数
实际合计 实际男人总数 实际女人总数  

   了解了混淆矩阵的概念,就可以接着了解接收器操作特性曲线(Receiver Operating Characteristic)了

为了便于理解,这里设上图描述的分类问题是“根据身高判断男女”,图中左上部分中,横坐标为身高,纵坐标为人数,左边图形代表女人,右边图形代表男人,竖线是阈值。

图中下半部分,横坐标为伪正类率(FP/P),纵坐标为真正类率(TP/P),当阈值取为1米时,几乎所有人都会被判断为男人,伪正类率和真正类率均为100%,对应的ROC点为最右上方点,而当阈值取3米时,所有人都会被判断为女人,伪正类率和真正类率均为0%,赌赢的ROC点为原点。一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。

AUC就是曲线下面积,在比较不同的分类模型时,可以将每个模型的ROC曲线都画出来,比较曲线下面积做为模型优劣的指标。ROC 曲线下方的面积(Area under the Curve),其意义是:

(1)因为是在1x1的方格里求面积,AUC必在0~1之间。

(2)假设阈值以上是阳性,以下是阴性;

(3)若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC 。

(4)简单说:AUC值越大的分类器,正确率越高。

从AUC 判断分类器(预测模型)优劣的标准:

AUC = 1,是完美分类器。

AUC = [0.85, 0.95], 效果很好

AUC = [0.7, 0.85], 效果一般

AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了

AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

官网:http://www.lenbor.com
原文地址:https://www.cnblogs.com/lenbor/p/13330330.html