异常值处理

异常值是模型优化的关键点之一，离均值远的是异常值，可是多远才算足够远呢，其实不同的模型有着不同的考量，基于模型所受的影响不同，所以所能忍受的异常值也不同。

1、异常值的类型

从二维的角度来说，其实异常值有三种类型，一是影响垂直方向Y的异常值，叫垂直特异性，对应探测该类异常的指标为标准化残差（学生化残差也可以）；二是同时影响x和Y的异常值，对应探测该类异常的指标为COOK值，三是影响水平方向的X的异常值，叫杠杆值，对应探测该类型异常的指标为杠杆率。

2、不同模型关注异常值的类型及处理方法

从x,y变量的角度区分不同模型对异常值的处理。一是对于没有Y的模型，只有一系列X，通过描述性分析，制作箱型图来探测异常值，此种情况下对于单变量的异常值一般不删除，仅仅是警惕即可。二是对于有Y的模型，对于y为线性的，如线性回归模型，该模型主要关注垂直特异性（具体原因与估计产生的标准差有关），因而主要是将标准化残差与+-2进行比较，超过的即为异常值；对于y为二分类变量，如logistic模型，三类异常值都要考虑，因而需要结合标准化残差、COOK值、杠杆率三个指标一起考虑，由此引出了偏离残差（界值为8）、皮尔森卡方（界值为100），此种情况异常值要删除。三是没有x、y之分的模型，x、y同等重要，通过聚类分析中的二维散点图探测异常值，如果是在数据挖掘中，异常值有些可能不要删除，而是重点检查，因为异常值代表着消费者行为中的小众行为，也许就是VIP行为。