特征挖掘之对二阶特征的提取

在进行有监督的机器学习时,特征工程显得尤其重要,本文介绍的是在人工提取一些特征之后,怎样对这些特征进行二阶组合提取;

在进行一系列的摸索之后,得到3个基本点:

  1. 对连续的特征进行离散化处理:
    • 最优分箱(见前面的博文
    • 进行WOE变换(将原特征用分箱后的WOE值替换)
  2. 离散特征:
    • 如果离散特征的维度较低(低到多少自己定,可根据前面的博文输出结果决定),没有必要对其进行WOE变换
  3. 二阶组合要有一定的针对性
    • 待组合的两个特征的重要性(或者IV)都比较低
    • 待组合的两个特征的重要性(或者IV)一高一低
    • 不建议对重要性很高的特征进行操作,当然也可以使用,但最后一定要评测好

二阶特征组合更多的应该是在给定某特征条件下的组合,而不是盲目的对所有的特征进行WOE变换之后进行简单的组合,这样会出问题,组合出来完全没意义(其实是在吐槽上面瞎指导的人)

 未完待续...

原文地址:https://www.cnblogs.com/leixingzhi7/p/9378831.html