特征工程


特征使用方案

  • 实现我们的目标需要哪些数据?基于业务理解 ,尽可能找出对因变量有影响的所有自变量

  • 可用性评估

    • 获取难度
    • 覆盖率
    • 准确率
  • 特征获取方案

    • 如何获取这些特征?
    • 如何存储?

特征处理

特征清洗

  • 清洗异常样本
  • 采样
    • 数据不均衡
    • 样本权重

预处理

  • 单个特征
    • 归一化
    • 离散化
    • Dummy Coding
    • 缺失值
    • 数据变换
      • log
      • 指数
      • Box-Cox
  • 多个特征
    • 降维
      • PCA
      • LDA
    • 特征选择
      • Filter
        • 思路:自变量和目标变量之间的关联
        • 相关系数
        • 卡方检验
        • 信息增益、互信息
      • Wrapper
        • 思路:通过目标函数( AUCMSE )来决定是否加入一个变量
        • 迭代:产生特征子集,评价
          • 完全搜索
          • 启发式搜素
          • 白随机搜索
            • GA
            • SA
      • Embedded
        • 思路:学习器自身自动选择特征
        • 正则化
          • L1 ---- Lasso
          • L2 ---- Ridge
        • 决策树 ---- 熵、信息增益
        • 深度学习
  • 衍生变量:对原始数据加工,生成有商业意义的变量

特征监控

  • 特征有效性分析 ----- 特征重要性,权重
  • 特征监控 ---- 监控重要特征 ---- 防止特征质量下降,影响模型效果
原文地址:https://www.cnblogs.com/fldev/p/14362771.html