基础特征工程经验

基础特征工程经验

基础准备

一、风控建模分类

授信类建模
反欺诈建模

二、反欺诈建模和授信建模的不同

什么是欺诈？什么是反欺诈？这一切都是由业务场景所决定。
反欺诈底层是什么？不仅要与相类似的数据比较，还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时，寻找“正常”中的异常。
怎么做？有监督，无监督，策略。

三、无监督

图算法模型（社交网络算法、知识图谱等）
图数据库（审核策略使用）

四、有监督

确定欺诈场景。发生了什么？怎么发生？为什么发生？

业务很重要。

特征工程也很重要。

变量选择

一、图数据库

唯一且有识别度的变量，如身份证，联系人+联系人联系方式+地区组合等。
特定时间内唯一且可识别的变量，如手机号，通讯地址等。
客户id等内部专用的唯一可识别变量不可用。
模糊匹配，关联，如gps定位，ip地址等。
词汇关联，如工作单位等。

二、有监督学习的变量选择

绝对不能用的变量

由因变量映射得到的变量
内部环境才存在的变量，如客户id
建模时存在，未来确定不会存在的变量（业务）
不稳定的变量，绝大部分为空值，且bad与good分布差异不大的变量（特征工程）

模型使用效果不好，策略可以使用的变量

过去存在，将来存在，但截止建模为止大部分客户数据中不存在的变量
不稳定的变量，绝大部分为空值，且bad与good分布差异很大的变量（特征工程）

业务上强关联但iv并不高的变量怎么使用

在确定现时模型表现的基础上，再尝试加入。
对于未来预测影响很大的变量。

什么是异常？

人为制造的异常不是异常。
业务可以解释的异常值并不异常。
异常：离群值，空值，与其他值显然不同的值，业务不可解释的值

异常值处理

替代
归一化、标准化、log transfer等
异常极值做dummy transfer

天才是百分之一的灵感，加百分之九十九的汗水，但那百分之一的灵感往往比百分之九十九的汗水来的重要

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Christbao/p/14168629.html