信用风险评分卡研究-第1章笔记

EDA与数据描述
探索性数据分析（EDA）和数据描述是检查数据并理解其特征的一系列过程的名称。在评分卡过程中，需要进行下列分析：
1）候选预测变量单变量有效预防人特征的评价，及其取值在变量范围内的分布；
2）计算每个候选预测变量分类或分段条件下的违约率分布，也被称为要素分析；
3）通过列联列表、关联性和相关性指标确定不同变量之间的检验关系；

1、粗分类：分段和降低基数与WOE转换一道，被称为粗分类

2、EDA和数据数据描述揭示出需要的具体数据变量的转换，而数据准备生成需要进行分析和描述的新变量。

通过用称量预测力的指标减少候选预测变量的数据，但是并不是所有被选中的变量都会出现在最终模型中。LOGISTIC 回归，评分卡开发中，使用的建模算法，提供了模型拟合过程中最优变量选择的几种方法。

标准评分卡是甚于LOGISTIC 回归模型。LOGISTIC 回归本质上是线性回归的扩展，通过一个称被为链接函数（LINK FUNCTION）的函数形式进行转换而获得的。经过转换，LOGISTIC回归模型中的因变量或者是二元变量（1/0），或者是顺序变量。在评分卡中，因变量账户的违约状态（违约/正常），分别用值（1/0）表示；

PROC LOGISTIC 要求所有的自变量老师数值变量，且没有缺失值（忽略所有包含缺失值的记录）。因此，将所有候选自变量转换成这种形式是第5章中介绍的数据准备阶段的主要任务之一。

模型验证
预测模型都需要满足四项基本要求：
1、必须达到可接受的准确性水平；
2、必须稳健，因此能够适用于更广范围的数据集；
3、必须简单，或具有数字意义上简洁性；
4、必须要有意义，即在业务变量及其预测值方面是可解释的。
因而，本书将将介绍并实施多个模型诊断统计量。在模型拟合过程中，PROC LOGISTIC 可以生成多个诊断统计量。

评分卡创建和刻度
一个强力的LOGISTIC 回归模型建立并通过检验后，将被转换成标准评分卡的形式。在LOGISTIC回归模型中对自变量进行证据权重转换有两益处：
1）可以将名义变量和分段的连续变量纳入LOGISTIC 回归模型。从而，每个原始自变量都是以唯一数值的形式被纳入模型。

监测和报告
目的：
1、判断评分卡的实际表现并与开发阶段的预期表现相比较；
2、计算某些特定的指数，这些指数可用来触发某些行动，如重建评分卡、重设临界值或者调整评分卡刻度；
3、监测评分卡创建使用的客户群的特征变化，以及这些变化对评分卡的分值的冲击；