金融风控之贷款违约预测笔记

要求

根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。

数据概况

总数据量超过120w,包含47列变量信息,其中15列为匿名变量。从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时对employmentTitle、purpose、postCode和title等信息进行脱敏
赛题地址:https://tianchi.aliyun.com/competition/entrance/531830/information?lang=zh-cn

评测标准

AUC评估模型

  • AUC(area under the curve)是ROC曲线下的面积
    学习路线: 混淆矩阵 -> ROC -> AUC
  • 混淆矩阵
    以预测肿瘤是否为恶行为例:

    如图:TP表示预测为良性,而实际也是良性的样例数;
    FN表示预测为恶性,而实际是良性的样例数;
    FP表示预测为良性,而实际是恶性的样例数;
    TN表示预测为恶性,而实际也是恶性的样例数;

以上四个数构成混淆矩阵,然后定义两个变脸:

FPR表示,在所有的恶性肿瘤中,被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们,随机拿一个恶性的肿瘤样本,有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好

TPR表示,在所有良性肿瘤中,被预测为良性的比例。称为真阳性率。真阳性率告诉我们,随机拿一个良性的肿瘤样本时,有多大的概率会将其预测为良性肿瘤。显然我们会希望TPR越大越好
以FPR/TPR为坐标画图:(显然左上角的最好)

原文地址:https://www.cnblogs.com/qian-shan/p/13678612.html