信用风险评分卡研究-第1章笔记

EDA与数据描述
探索性数据分析(EDA)和数据描述是检查数据并理解其特征的一系列过程的名称。在评分卡过程中,需要进行下列分析:
1)候选预测变量单变量有效预防人特征的评价,及其取值在变量范围内的分布;
2)计算每个候选预测变量分类或分段条件下的违约率分布,也被称为要素分析;
3)通过列联列表、关联性和相关性指标确定不同变量之间的检验关系;


1、粗分类:分段和降低基数与WOE转换一道,被称为粗分类

2、EDA和数据数据描述揭示出需要的具体数据变量的转换,而数据准备生成需要进行分析和描述的新变量。

通过用称量预测力的指标减少候选预测变量的数据,但是并不是所有被选中的变量都会出现在最终模型中。LOGISTIC 回归,评分卡开发中,使用的建模算法,提供了模型拟合过程中最优变量选择的几种方法。

标准评分卡是甚于LOGISTIC 回归模型。LOGISTIC 回归本质上是线性回归的扩展,通过一个称被为链接函数(LINK FUNCTION)的函数形式进行转换而获得的。经过转换,LOGISTIC回归模型中的因变量或者是二元变量(1/0),或者是顺序变量。在评分卡中,因变量账户的违约状态(违约/正常),分别用值(1/0)表示;

PROC LOGISTIC 要求所有的自变量老师数值变量,且没有缺失值(忽略所有包含缺失值的记录)。因此,将所有候选自变量转换成这种形式是第5章中介绍的数据准备阶段的主要任务之一。

模型验证
预测模型都需要满足四项基本要求:
1、必须达到可接受的准确性水平;
2、必须稳健,因此能够适用于更广范围的数据集;
3、必须简单,或具有数字意义上简洁性;
4、必须要有意义,即在业务变量及其预测值方面是可解释的。
因而,本书将将介绍并实施多个模型诊断统计量。在模型拟合过程中,PROC LOGISTIC 可以生成多个诊断统计量。

评分卡创建和刻度
一个强力的LOGISTIC 回归模型建立并通过检验后,将被转换成标准评分卡的形式。在LOGISTIC回归模型中对自变量进行证据权重转换有两益处:
1)可以将名义变量和分段的连续变量纳入LOGISTIC 回归模型。从而,每个原始自变量都是以唯一数值的形式被纳入模型。

监测和报告
目的:
1、判断评分卡的实际表现并与开发阶段的预期表现相比较;
2、计算某些特定的指数,这些指数可用来触发某些行动,如重建评分卡、重设临界值或者调整评分卡刻度;
3、监测评分卡创建使用的客户群的特征变化,以及这些变化对评分卡的分值的冲击;

原文地址:https://www.cnblogs.com/wdkshy/p/9878720.html