特征工程之应用业务知识(保险)

1. 可通过其他属性推断一些缺失值:

    缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。

  • 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性;
  • 费率可以推测被保人的性别,年龄
  • 一般来说,吸烟者都会在系统中有标识,所以没有标志的可认定为不吸烟者
  • 根据职业也可推测性别
  • Modal/Annualized premium推测缴费频率
  • 未成年人(各国标准不同,须注意)的婚姻状态
  • 根据现有的数据线性拟合预测缺失值。如身高、职业、国籍、年龄等,可拟合出体重数据

2. 创造特征

  • 从不同的角度看待现有特征而创造。日期类型的特征在算法中很难直接使用,可转换为其他特征。如生日,可根据特定的目的变为“当时的年龄”“现在的年龄”“第一次购买时的年龄”“初次住院年龄”等
  • 从POS中发现特征。如“搬家次数”“通勤时间长短”“加减保的频率”“曾改名”。
  • 从特定的业务规则中提取。如拥有FATCA账户或“一卡通”的被保人可被认为“支付能力高”

3. 准备一张厚脸皮,虚心讨教业务人员 

《待补充》

回顾下来,渐渐明白为何找不到一本书能够系统地介绍特征工程了,因为各行各业的特点不一样,很难抽象出通用的知识点或者说技巧。

暂时以大神的一句话做结尾吧:

Actually the success of all Machine Learning algorithms depends on how you present the data.

— Mohammad Pezeshki

原文地址:https://www.cnblogs.com/okokok/p/6783762.html