特征分箱

特征分箱

分箱的优点

分箱的好处主要有这些:
1、分箱后的特征对异常数据有更强的鲁棒性。比如年龄中有一个异常值为300,分箱之后就可能划到>80这一箱中,而如果直接入模的话会对模型造成很大干扰。
2、特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合。
3、特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
4、可以将缺失作为独立的一类带入模型。
5、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
6、下面开始介绍卡方分箱,首先要先了解卡方检验。因为卡方分箱是一种基于卡方检验的分箱方法,具体来说是基于卡方检验中的独立性检验来实现分箱功能。

未完待续。

原文地址:https://www.cnblogs.com/gaowenxingxing/p/15343703.html