项目总结-信用评分卡

本文基于Python软件进行评分卡的制作及使用预测。主要包括确定观察时间窗口、确定表现时间窗口、评分卡的制作、新数据的预测四大部分。内容涉及数据清洗、变量筛选、生成WOE 矩阵、IV值计算、ROC曲线、模型建立、模型评估预测等。

数据来源

　　本项目数据来源于kaggle竞赛Give Me Some Credit。

流程如下

1.确定观察时间窗口

使用用户逾期详情表data/CreditSampleWindow.csv:
- CID:用户ID
- STAGE_BEF:本阶段前的逾期阶段
- STAGE_AFT:本阶段进入的逾期阶段

- 其中逾期阶段含义为: M0:逾期0-3天; M1:逾期3-30天; M2:逾期30-60天; M3:逾期60-90天;以此类推

- START_DATE:进入本阶段时间
- CLOSE_DATE:本阶段结束时间

本数据取的是订单审批日从2015年1月1日到2017年10月31日的所有订单号,即这些订单对应的逾期详情,最后的截止日期为2018年5月31日

1.1导包

1.2读取数据及描述统计

根据描述结果可以看出最后一列即本阶段结束时间最小值为0,且包含缺失值,故需要先处理缺失值再处理异常值0

1.3数据清洗

1.3.1去重

　　drop_duplicates是数据框去重的函数,可以根据指定的若干列(subset=)去重

1.3.2缺失值的处理

后4列缺失值比例相同约为0.08，若缺失值在同一行，则考虑删除。所以验证各列缺失值是否在同一行。

　　在同一行，删除

1.3.3异常值的处理

replace:替换数据框中的指定值,输入字典,键是被替换值,值是替换值

1.3.4生成衍生变量

从数据中的进入本阶段时间和本阶段结束时间(4,5列)抽取对应的月份信息 •从本阶段进入的逾期阶段(3列)中抽取逾期指标

1.4构建矩阵

这里的矩阵表示:

　　•相继时间内逾期状态的变化情况,相继时间表示从一个月到下一个月

　　•每一行表示开始月份时的逾期状态,每一列表示结束月份时的逾期状态

　　•开始月份和结束月份是相继的,即间隔一个月

1.4.1逻辑关系

1.每一行数据对应一个本阶段的逾期状态,对应两个月份时间:进入本阶段时间和本阶段结束时间

可以将这两个时间都理解为逾期状态对应的时间,即逾期时间
生成逾期状态数据框,每行对应三列:id,逾期状态,逾期时间(包含进入本阶段时间和本阶段结束时间)

2.将逾期状态数据框内转置,生成时间数据框:行是id,列是逾期时间

转置前事先对数据排序,去重,保留同ID,同时间下逾期状态的最大值

3.使用时间数据框:由于列是已经排序的两列,取前后相继的两列,即相继的两个月,统计逾期状态变化的频数,得到所有相继两列状态变化的频数

根据统计的频数,构建矩阵,行表示相继时间中开始时间对应的逾期状态,列表示结束时间对应的逾期状态

4使用得到的矩阵,生成新列:

每个状态所有可能的变化,即行和
每个状态所有不好的变化,即表示状态的数字变大
每个状态不好的变化的占比,即不好的变化除以所有可能的变化

1.4.2生成预期状态数据框

1.4.3生成时间数据框

排序和去重:

sort_values:依据值排序,缺失值默认在末尾.依据指定列进行排序,设置by=一列或多列(列表)列名即可
drop_duplicates:根据若干列去重, 设置subset指定列,keep表示要保留的数据,可选"first","last",False(表示去掉所有重复的行)

set_index:给出若干列,将列作为行索引(每行可以有多个索引)
unstack:level=-1, fill_value=None, 第一个参数表示以哪列索引作为列, 默认最后一列, 相当于以选定的索引列作为列名, 其他作为行名

1.4.4生成矩阵

最终矩阵

绘图观察

可见M1是一个明显的最低点和拐点,到M2阶段以后坏客户的比例迅速增加,因此这里选定的观察时间窗口为M2,即30-60天,我们就可以定义逾期大于30天的客户为坏客户
可以根据业务需求进一步调整观察时间窗口

2.确定表现时间窗口

使用用户订单时间表data/CreditFirstUse.csv:

CID:用户ID
FST_USE_DT:用户订单时间

2.1数据读取及描述

可见没有缺失值,没有重复订单号
用户订单时间从2015年1月1日到2017年10月31日,初步判断没有异常值

2.2数据清洗

使用前面生成的时间数据框:

由于选取观察时间窗口为M2,对于每个ID:
- 取逾期状态大于等于2的首个月作为逾期月
- 逾期月表示客户开始转向坏客户
使用逾期月生成新列

统计月份差异的频数,并且排序

发现有的时间差是负的,把排序后前面负的时间差去掉

2.3定义y的总结

通过之前的数据筛选和汇总,我们定义观察时间窗口为M2(30-60天),表现时间窗口为20
即对于所有客户来说,我们认为在订单生成20个月内
- 有M2以上的逾期,即逾期天数>=31天,为坏客户
- 有M1以下的逾期,即逾期天数<=3天,为好客户
- 中间状态的样本认为是不确定的不进入模型

3 . 评分卡制作

该数据是信贷数据,来自kaggle2011年的竞赛数据:Give Me Some Credit,评判指标是AUC

SeriousDlqin2yrs:出现90天或更长时间的逾期行为(即定义好坏客户)
RevolvingUtilizationOfUnsecuredLines:贷款以及信用卡可用额度与总额度比例
age:借款人借款年龄
NumberOfTime30-59DaysPastDueNotWorse:过去两年内出现35-59天逾期但是没有发展的更坏的次数
DebtRatio:每月偿还债务,赡养费,生活费用除以月总收入
MonthlyIncome:月收入
NumberOfOpenCreditLinesAndLoans:开放式贷款和信贷数量
NumberOfTimes90DaysLate:借款者有90天或更高逾期的次数
NumberRealEstateLoansOrLines:抵押贷款和房地产贷款数量,包括房屋净值信贷额度
NumberOfTime60-89DaysPastDueNotWorse:过去两年内出现60-89天逾期但是没有发展的更坏的次数
NumberOfDependents:家庭中不包括自身的家属人数(配偶,子女等)

3.1 读取数据以及描述统计

修改列名:由于一些算法中,列名中的某些符号会带来问题甚至报错,例如这里的"-",会在回归公式中被认为是减号,所以换成"_"

3.1.1去重

3.2缺失值处理

缺失值处理方法的选择,主要依据是业务逻辑和缺失值占比,在对预测结果的影响尽可能小的情况下,对缺失值进行处理以满足算法需求,所以要理解每个缺失值处理方法带来的影响,下面的缺失值处理方法没有特殊说明均是对特征(列)的处理:

占比较多:如80%以上:删除缺失值所在的列
- 如果某些行缺失值占比较多,或者缺失值所在字段是苛刻的必须有值的,删除行
占比一般:如30%-80%:将缺失值作为单独的一个分类
- 如果特征是连续的,则其他已有值分箱
- 如果特征是分类的,考虑其他分类是否需要重分箱
占比少:10%-30%:多重插补:认为若干特征之间有相关性,则可以相互预测缺失值
- 需满足的假设:MAR:Missing At Random:数据缺失的概率仅和已观测的数据相关,即缺失的概率与未知的数据无关,即与变量的具体数值无关
- 迭代(循环)次数可能的话超过40,选择所有的变量甚至额外的辅助变量
- 详细的计算过程参考:Multiple Imputation by Chained Equations: What is it and how does it work?
占比较少:10%以下:单一值替换,如中位数,众数
在决策树中可以将缺失值处理融合到算法里:按比重分配

这里的占比并不是固定的,例如缺失值占比只有5%,仍可以用第二种方法,主要依据业务逻辑和算法需求

3.2.1查看缺失值分布情况

本数据的缺失值处理逻辑:

对于信用评分卡来说,由于所有变量都需要分箱,故这里缺失值作为单独的箱子即可
对于最后一列NumberOfDependents,缺失值占比只有2.56%,作为单独的箱子信息不够,故做单一值填补,这列表示家庭人口数,有右偏的倾向,且属于计数的数据,故使用中位数填补
这里没必要进行多重插补,下面的多重插补只是为了让读者熟悉此操作

3.2.2多重差补