10-3[RF] feature selection

main idea：

计算每一个feature的重要性，选取重要性前k的feature；

衡量一个feature重要的方式：如果一个feature重要，则在这个feature上加上noise，会对最后performance影响很大。

1.feature selection的含义及优缺点

去除冗余的特征（比如，年龄和出生年月两个特征，根据出生年月能计算出年龄）

无关的特征（研究病人的病情，和他的医保类型没有关系）

优点（选好特征后）：

a. 效率（feature变少，维度变低）

b. 泛化（坏的特征被剔除，相当于剔除了特征中noise）

c. 可解释性

缺点（特征选择时）：

a. 特征组合的个数很多，如果遍历每种组合，计算量大

b. 如果没有选到合适的特征，用一些不怎么好的特征进行模型训练，会带来过拟合

c. 如果b中情况发生，则不具有可解释性

2.feature select方法

a.linear model

$W^tx$，$W_i$小，表示该特征不重要

b.permutation test

根据加上noise和没有加noise之间的performance差距衡量特征的重要性

使用permutation，在feature i上加noise（保持了feature i的分布）：

保持其他feature不变，随机排列 $X_{ni}$ 的顺序

3.结合OOB做feature selection(针对 Random Forest)

根据上面的公式，可以知道，需要进行d+1次训练（d为特征的个数），原始数据上进行的训练+d（特征i上进行permutation）

据上进行的训练

当使用bagging时，会有一部分数据没有被使用，成为OOB数据，用这些数据进行OOB validation

在validation时，在OOB 数据上进行permutation