【数据分析师 Level 1 】17.分类分析

1相关性检验

列联表和卡方检验

分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法来进行验证。

列联表是两个分类变量的分类水平之间形成的交叉频数表，通过计算行百分比或列百分比，对实际频率和期望频率进行对比分析，例如一个经典的列联表如下：

对比表中频数、期望频数、行/列百分比的解读方法要熟练掌握。

比如98代表的是头发颜色为金色，眼睛颜色为深色的样本数量。而355.2则是期望的数量。6.7%是行百分比，也就是在所有头发颜色为金色的样本中，眼睛颜色为深色的占比。

列联表是一种简单的描述性统计方法，而卡方检验则可以通过量化的方法对两个分类变量的相关性进行检验，卡方统计如下：

[X^2 = sum^R_{i=1}sum^C_{j=1}frac{(Ob_{s_{ij}}-E_{xp_{ij}})^2}{E_{xp_{ij}}} ]

其中O是观察到的频数，E是期望的频数，可以看到卡方检验关注的就是统计样本实际观测值与期望值之间的偏离程度。卡方值越大，说明偏离越大，也就是实际观测值越不符合期望值。如果卡方值等于0，这说明观测结果和期望完全相符。卡方检验是一种用途非常广的假设检验方法。

另外卡方检验的结果与分类变量的顺序无关，将任意两行进行互换，卡方值不变。

在掌握了列联表分析和卡方检验的基础上，可以学习使用逻辑回归对分类变量进行预测。

逻辑回归主要处理的就是分类问题。事实上，也可以把他看作是线性回归的一种延伸。我们面对的因变量，也就是模型输出结果不再是一个连续变量，而是一个分类变量。最常见的逻辑回归就是二分类变量逻辑回归，通常我们可以使用这种方法来寻找目标客户

CDA I级要求掌握二分类逻辑回归的原理与应用。首先要熟知逻辑回归的回归方程：

[Logit(P_i) = eta_{0}+eta_1X_1+...+eta_kX_k ]

其中

[Logit(p) = ln(frac{p}{1-p}) ]

其中p为发生概率，

[frac{p}{1-p} ]

为发生比Odds，Logit值相当于对Odds取自然对数。

公式中，常数项

[eta_0 ]

的含义是指不考虑任何影响因素（自变量）的情况下的

[Logit(p) ]

而系数

[eta_i ]

代表第i个因素（自变量）变化1个单位时，

[Logit(p) ]

变化的数值。

使用样本进行参数估计，获取了系数

[eta ]

的估计，就可以使用回归方程对被解释变量的

[Logit ]

值进行预测，在经过变换可以获得

[p ]

需要注意的是，这个

[p ]

一般仅作为排序使用，没有实际的预测意义。因此这个概率仅是相对的可能性，而不是绝对的发生概率。

进行逻辑回归时，我们希望选择的变量尽可能地有效，避免冗余。常用的变量筛选方法有如下几种：

Wald检验：通过Wald统计量，来检验自变量对因变量的影响能力。Wald越大，说明自变量相关性越大，越应该保留。
似然比检验（Likehood Ratio）：也是逻辑回归非常常用的一种检验方法。逻辑回归模型的估计一般是使用最大似然估计，也就是说找到一个似然函数L，使其达到最大值。L越大，也就说明模型的预测效果越好。因此似然比检验本质上是对包含或者不包含某一个或者几个变量的模型L值进行比较，从而做出判断。
比分检验（Score Test）：以包含某个或者某几个变量的模型作为基础，加入系数为0的新变量，通过计算似然函数的一阶偏导数和信息矩阵，取两者的乘积作为最终的统计量。

这三种方法中，似然比检验是最可靠，也是最常用的一种变量筛选方法。在变量存在共线性时，Wald检验结果不可靠。另外，实际应用是以上三种方法，都可以采用向前或者向后逐步的方式进行变量筛选。

另外在逻辑回归模型中，我们需要使得自变量和因变量的对数存在线性关系。如果发现实际的变量不符合，可以通过筛选变量，变量转换等方式进行调整。另外变量转换也可以避免异常值对结果造成偏差。

前面提到，逻辑回归的模型参数估计通常采用的是最大似然函数法，因此理论上需要有一定量的样本才能采用这种方法，否则检验公式就是不合理的。另外也需要注意的是，逻辑回归的模型无法解决多重共线性的问题，因此在输入变量前，对变量进行检验和清洗是非常必要的。

得到模型后，我们可以通过混淆矩阵和ROC曲线来评判模型的效果

混淆矩阵——灵敏度和特异度

灵敏度指的是模型“击中”的概率，也就是实际发生（取值为1）的样本，模型预测为1的概率，对应上图的公式为

[frac{A}{A+B} ]

特异度指的是“正确否定”的概率，也就是说对于实际没发生（取值为0）的样本，模型预测为0的概率。对应上图的公式为

[frac{D}{(C+D)} ]

因此，可以看到不管是灵敏度还是特异度，都是越高，说明我们的模型越有效。在实际应用中，由于逻辑回归模型计算的结果其实是一个相对可能性p，因此我们可以根据实际情况调整判断取值为1的p的标准。更有侧重性地提高灵敏度和特异度。

ROC曲线

除了使用混淆矩阵，我们还可以通过ROC曲线的方式来图形化地判断模型效果

ROC曲线也是基于灵敏度和特异度来仅判断的。曲线下面积AUC指的是ROC曲线、底线和右侧线围成的面积。ROC曲线的面积一般在0.5-1之间。这个数值越接近1，表明模型预测能力越强。当AUC在0.7-0.9时，我们认为模型有较高的判断作用。而AUC接近0.5的时候，我们认为这个模型是无效的。

在实际业务中，我们一般利用二分类逻辑回归作为筛选目标客户的主要手段。不管是识别明星客户、流失客户，甚至是可能存在违约或欺诈行为的客户，都可以采用这种方法。

例题精讲

1.某客户为欺诈的概率为0.4，则优势odds为（）

A.0.4

B.2/3

C.3/2

D.0.6

答案：B

解析：该题考核了二分类变量分析的基础知识.Odds的定义是显性结果的概率比上非显性结果的概率，因此0.4/0.6等于2/3

2.建立逻辑回归时，为什么有时候需要对连续变量进行分箱处理？

A.避免变量的共线性

B.捕获原始连续变量和被解释变量之间非线性关系

C.避免异常值影响

D.修正残差非正态分布

答案：BC

解析：如果发现解释变量与反应变量之间相关，但又不呈现线性关系时，往往会对解释变量进行分箱，同时分箱也能够消除极端值。

3.逻辑回归中，被解释变量Y的取值为0（good）、1（bad），解释变量X的系数为-0.27，则下列说法正确的是？

A.随着X的增大，Y=1的概率在增大

B.X增大一个单位，Y=1的概率降低27%

C.X+1对X的似然比为

[e^{-0.27} ]

D.X增大时，Y=1的概率在减小

[Logit(p) = ln(frac{p}{1-p}) = ln(odds) = eta_0+eta_1X_1 ]

可以推出：

[oddssratio = frac{odds_{(X+1)}}{odds_{x}} = frac{e^{eta_0}+eta_1(x+1)}{e^{eta_0+eta_1x}}=e^{eta_1} = e^{-0.27} ]

答案：CD

解析:逻辑回归中,解释变量的系数的数值意义并不直观,根据回归方程如上