基础特征工程经验

基础准备

一、风控建模分类

  1. 授信类建模
  2. 反欺诈建模

二、反欺诈建模和授信建模的不同

  1. 什么是欺诈?什么是反欺诈?这一切都是由业务场景所决定。
  2. 反欺诈底层是什么?不仅要与相类似的数据比较,还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时,寻找“正常”中的异常。
  3. 怎么做?有监督,无监督,策略。

三、无监督

  1. 图算法模型(社交网络算法、知识图谱等)
  2. 图数据库(审核策略使用)

四、有监督

  • 确定欺诈场景。发生了什么?怎么发生?为什么发生?
  • 业务很重要。
  • 特征工程也很重要。

变量选择

一、图数据库

  1. 唯一且有识别度的变量,如身份证,联系人+联系人联系方式+地区组合等。
  2. 特定时间内唯一且可识别的变量,如手机号,通讯地址等。
  3. 客户id等内部专用的唯一可识别变量不可用。
  4. 模糊匹配,关联,如gps定位,ip地址等。
  5. 词汇关联,如工作单位等。

二、有监督学习的变量选择

  • 绝对不能用的变量
  1. 由因变量映射得到的变量
  2. 内部环境才存在的变量,如客户id
  3. 建模时存在,未来确定不会存在的变量(业务)
  4. 不稳定的变量,绝大部分为空值,且bad与good分布差异不大的变量(特征工程)
  • 模型使用效果不好,策略可以使用的变量
  1. 过去存在,将来存在,但截止建模为止大部分客户数据中不存在的变量
  2. 不稳定的变量,绝大部分为空值,且bad与good分布差异很大的变量(特征工程)
  • 业务上强关联但iv并不高的变量怎么使用
  1. 在确定现时模型表现的基础上,再尝试加入。
  2. 对于未来预测影响很大的变量。

什么是异常?

  1. 人为制造的异常不是异常。
  2. 业务可以解释的异常值并不异常。
  3. 异常:离群值,空值,与其他值显然不同的值,业务不可解释的值
  • 异常值处理
  1. 替代
  2. 归一化、标准化、log transfer等
  3. 异常极值做dummy transfer
天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
原文地址:https://www.cnblogs.com/Christbao/p/14168629.html