特征工程[概述](施工中)

特征准备

1. 基于业务/经验理解

2. 可用性评估

  • 获取难度
  • 覆盖率
  • 准确率

特征处理

特征清洗

清洗异常样本

  1. 经验
  2. 高斯分布
  3. 箱型图
  4. 聚类算法
  5. LOF, 孤立森林

样本数量

  1. 正负样本不均衡
    • 过采样
    • 欠采样
    • smote
    • 非监督学习方法
  1. 样本权重
  2. 样本扩充(图像相关)

预处理

  1. 单个特征
    1. 归一化
    2. 离散化
    3. 中心化
    4. one hot
    5. dummy coding (哑变量)
    6. 数据变化呢
      1. log
      2. 指数
      3. 分箱
      4. ***box-cox
    7. 缺失值填充
      1. 固定值
      2. 均值
      3. 众数/中位数
      4. 插值法
      5. 前/后数据填充
      6. knn
  2. 多个特征
    1. PCA
    2. LDA
    3. 缺失值比率 (Missing Values Ratio)
    4. 低方差滤波 (Low Variance Filter) 
    5. 高相关滤波 (High Correlation Filter) 
    6. 随机森林/组合树 (Random Forests) 
    7. 反向特征消除 (Backward Feature Elimination) 
    8. 前向特征构造 (Forward Feature Construction) 
    9. 相关性系数
    10. 卡方检验
    11. 信息增益
    12. 随机搜索
      1. 遗传算法
      2. 模拟退火
      3. 蚁群算法
    13. 正则化
    14. 深度学习的方法
  3. 衍生变量
    1. FM
    2. FFM

 

原文地址:https://www.cnblogs.com/fadedlemon/p/10756483.html