信用风险评分卡研究-第3章笔记

数据描述，数据探索，或探索性数据分析（EDA)，是同一事件的不同名称；即数据的初步分析。
该分析包括以下全部或部分的探索：
1、每个候选预测变量的统计特性和分布
2、候选预测变量与状态变量之间，以及预测变量相互之间的是否存在关联性或相关性。
3、检查缺失值和极端值，并评估它们对结果模型的冲击
4、调查候选预测变量中正常和违约的分布情况

数据描述引导着数据准备的步骤；而新生成的变量又需要进行分析，以确保它们能够真正实现其目标。因此，在准备建模视图的过程中，数据描述和数据准备形成一个迭代循环的最大化。通常，数据描述和数据准备是评分卡项目中最消耗的阶段。它们将消耗项目总时间的80%。

当前，EDA实践中包含以下过程：
1、描述性统计，如对每个变量的单变量统计；
2、评估每个变量值的分布并检验正态假设；
3、极端值的识别和处理；
4、缺失值的计算和处理；
5、关键变量的列联表以及这些表格中统计量的计算；
6、变量间相关性和关联性指标的计算；

单变量统计量
大多数常用的单变量统计是可以用PROC UNIVARIATE 计算，这些统计量可以分为以下5组：
1、矩，如均值、众数和标准差；
2、位置和变化率的基本统计指标；
3、均值位置的检验；
4、分位数，如第一个和第三个四分位数；
5、极端值观测值，包括极大值和极小值；

MU0=2.2 LOCCOUNT 假设平均值为2.2，当对多个变量检验时，可以以空格设置多个变量的平均值；当检验均值的位置时，选项LOCCOUNT将打印输出大于、不等于和小于被检验均值的所有值;

用PROC UNIVARIATE 可以识别极端观测值。这个特性可以作为极端值的一种简单方法，极端值的记录个数量，默认为5，通过NEXTROBS选项可以更改默认值。

问题：对于单变量统计量中，查看顺序变量、名义变量的均值是否有意义？

变量分布：
除了进行单变量统计量进行分析，对潜在预测变量分布的检查也可能提示出有趣的特征。通常，直方图用于绘制连续变量的分布图，而饼图或饼图或条形图用于名义变量或顺序变量。

直方图或者用特殊的软件绘制，或者通过将连续变量分段并计算各段的频数而绘制。通过检查连续变量的直方图可以提示该变量的分布是否有偏，或表现出类似钟形分布的一定集中趋势。宏%EqWBinn将连续变量分为等宽的区间。

在名义变量和序列变量的情况下，饼图和条形图主要用于调查两种潜在情况。第一种情况是一个变量类别占分布的主导地位，其他所有类别的频数都低得多。在这种情况下，建议将其他类别划为一个新的超级组。第二种情况是有很多的类别，即高基数性。在这种情况下，需要将这些类别划分为更少的级别。

特征分析：
所谓特征分析是评分卡开发过程中对变量进行的广泛分析。这种分析包括对连续变量的分段并对每段中正常和违约分布的检查。
特征分析的目的是揭示违约率和备选预测选项之间的关联性。

特征分析，如上文所定义，是将连续变量分为预先设定数量的段，并计算每段中违约和正常的频数和占比的一个简单的过程。绘制这些值的分布图可以发现违约状态和变量间的关联性。
要素定义中定义分段常用的方法有两种：
第一种，每段中都包含等量的观测值。这种情况下，所分析连续变量的每段的取值范围宽度并不相同（等高度分段）。
第二种，等宽度分段。

这部分，即使运行结果出例子，也是看不出来意义：

Lower Upper Bin Percent_ Percent_
Obs Bin Bound Bound N_1 Total N_0 1 0

1 1 0.0 13981.8 182 13981 13799 1.30177 98.6982
2 2 13981.8 27963.6 178 13982 13804 1.27307 98.7269
3 3 27963.6 41945.4 143 13982 13839 1.02274 98.9773
4 4 41945.4 55927.2 148 13982 13834 1.05850 98.9415
5 5 55927.2 69909.0 138 13982 13844 0.98698 99.0130

列联表:
列联表就是用两个或更多变量建立频率表；
PROC FREQ 和 PROC TABULATE 提供大师计算和绘制这些表格的选项和方法；
怎么通过列联表来看数据？

极端值的识别：
信用评分卡的开发过程中有两个隐含的假设：
1、违约状态是预测变量的函数。
2、建模数据集中使用的自变量由一个过程生成，该过程可以表现为一个单一的分布。这就是为什么假设一个单一的评分卡可以用这些数据进行建模；
这两个假设意味着这些数据来源于某些分布或由某个过程生成，该过程具有特定的，但是末知的函数形成。来源于这个过程之外的观测值被称之为极端值。
由于生成这些数据的（假设的）过程是未知的，很确定哪些观测值是极端值。能够做的就是尽力找出看起来和大多数数据之间存在很大差异的观测值。识别极端值的方法就是根据所谓的“差异”。
以上是极端值的第一个来源。极端值的第二个来源是数据差错。数据差错发生于获取原始的业务数据过程中，或将数据从一个存储应用程序中转移到另一个过程中。这种类型的极端值很容易识别。例如，对于客户年龄（年）来说，174的取值肯定是错误的。数据差错导致的极端值或者被删除，或者用一系列系统的规则进行校正，该规则基于该变量可接受的取值范围的特征。数据差错的典型情况是由带有Y2K问题的日期衍生的字段。

大多数情况下，被认定为极端的观测值或者被删除，或者将期值重置为总体中看起来更为典型的某个值；然而，被认定为极端值的观测值数量变得很大时，比如超过总体的10%，需要考虑将总体区分为两个独立的数据庥，即分群（segments），并针对每个群开发独立的评分卡。这种情况下需要注意的是，生成数据的基本程序或机制不止一种，每种都需要开发独立的评分卡。

识别极端值的常用方法可以被分为以下四类：
1、第一种，也是最简单的一种方法，就是为每个变量设定一个正常的取值范围，可以在简单统计指标的基础上予以证实。例如，在连续变量的情况下，这些范围可以设定为均值正负的3倍标准差。在名义变量和顺序变量的情况下，如果某一类别的频率数是，比如，总体的1%或更多就被看作正常。
这种识别极端值的方法简单易行而且容易解释。然而，由于它基于对每个变量的独立检验，并没有考虑数据的多元属性。因此忽略了变量间的相互影响。
在信用风险评分中，基于取值范围的方法是常用的方法。因为评分卡通常是开发用来反映正常客户的交易和申请数据。因此，忽略了变量间的相互影响。

2、第二种方法是建立在生成数据的过程是具有特定的函数形式的模型，如线性模型的假设基础之上。可以用已知数据拟合该模型，严重偏离被拟合的观测值被视为极端值。
这些方法考虑了数据的多变量属性。然而，它们都建立在特定的模型形式的假设之上。信用评分卡建立在LOGISTIC回归模型的基础之上。但是，当前实施该方法有赖于稳健的线性回归的应用。因此，在LOGISTIC回归中，观测值因为不能很好地摔倒一个稳健的线性回归模型而用这种方法认定为极端值是正常的。这种差异提示了对这些方法有效性的一些质疑。

3、第三种方法用聚类算法将数据分较小的子集，即簇或群。只包含较小数据观测值的簇，理想状态是一个观测值，被认定为极端值。
聚类算法根据统计距离指标将相似的观测值分在同一个簇。统计距离指标是族的中心和每个观测之间的距离的多变量。因而，用这种方法识别极端值了数据的多变量属性，即特定的值没有被标记为极端值，而是特定的观测值。这或许是结合了上述两种方法优点的最好方法。

4、第四种方法依靠决策树发现包含少量观测值的持续结点。尽管决策树在评分卡模型的开发过程中不常用，但是仍可以用来指出潜在极端值。但是，使用这种技术取决于一个好的交互式决策树软件的可获得性，以允许对数据进行大师的可视化探索，找出这种持续的小结点。
这强调了决策树和第一种方法在使用一定范围和统计指标识别极端值过程中的相似性。这种情况下，决策树仅仅是一个可视化界面，表示对数据进行多层次查询的基于取值范围的方法。

根据范围识别极端值
如果一个连续变量服从正太分布，且99.7%观测值在均值的正负3倍标准差之间。此时，可以尝试通过找出这个范围之外的观测值来识别极端值。
超过正负3倍的观测如何处理？

使用聚类识别极端值
聚类法中最常用的一种就是K-均值算法。其中，用各种距离指标将数据分成K个不相交的簇。K-均值算法有时会生成一些只包含少数观测值的群。检查这些小型群的观测值通常会发现其中传播的聚类变量的取值与其他数据存在显著差异。这个特征使得K-均值作为识别极端的一种工具很受欢迎。
K-均值算法可以在PROC FASTCLUS中用各种距离指标实施。它适用于大型数据集的聚类分析和极端值的识别。通常，通过设定较大数量的簇以实现上述目的。当结果中包含某些只有少量观测值的簇时，这些观测值就可以被看作潜在的极端值。

多级识别极端值
每种方法都有助于识别出特定类型的极端值。因此，在尝试找出所有类型中不符合数据一般分布情况的观测值的过程中，同时使用多种方法是很常见的做法。例如，首先采用基于取值范围的方法进行单变量分析以识别极端值，然后采用聚类方法在多元特征的基础上识别极端值。

极端值的处理
一方面，因为极端值的定义是主观的，将数据中某些观测值标识为极端值并不一定意味着需要将它们删除，很多情况下，这只是意味着它们与其他数据服从不同的分布。
另一方面，如果被标识为极端值的观测值的数量占总数据大的比例，比如超过10%，这就是一个明确的信号，表明生成数据的机制不上一个。这种情况下，就要调查是否需要针对每个群单独的模型/评分卡。

处理极端值最常用的方法是用基于变量一元分析的某些值替代它们。只有作为单变量法识别极端值的结果时，这些方法才能使用。在连续变量和名义变量的情况，替代已知统计量的极端值的一些常用方法。用连续量表代替顺序值，从而可以将它们当作名义值或连续值对待。需要注意的是，替代值经常会导致被替代值的分布有偏。
另外一种方法是将极端值转为缺失值。这种方法也只是对每次检查一个变量基础上极端值才有效。这种情况下，除了删除极端值的可能性，也可用一些单变量统计量替代它们的值，还可以用多重归因的方法。
替代极端值的常用选项
名义变量：模式、删除
连续变量：中位数，上、下四份数、均值、删除。