机器学习-特征选择

特征选择

从特征集合中选择出相关的特征子集的过程,称为特征选择。它是数据预处理的一个重要过程。

为什么进行特征选择?

答:由于特征过多造成维数灾难,去除不相关的特征,会降低学习任务的难度。

过滤式选择

过滤式特征选择是首先从特征中过滤重要特征,接着再训练学习器,特征选择过程与学习器训练过程无关。

Relief:

过滤式法特征选择。通过一个相关统计量来度量特征的重要性。该统计分量是一个向量,向量的每个分量代表一个特征,向量值越大,特征越重要。

算法如下:

给定训练集{{x1,y1},,,{xm,ym}},对于xi,先在同类样本中寻找最近邻样本,xi,nh 称为猜中近邻,在从异类样本中寻找最近邻样本xi,nm ,称为猜错近邻,

Pj = sum I (-diff(xi,xink)2+diff(xi,xinm)2)  表示相关统计量在书信j上的值

若属性是离散型,xa=xb,则diff(xa,xb)=0 否则diff(xa,xb)=1

若属性是连续型, diff(xa,xb)=| xa-xb |

最后基于每个样本求得的相关统计量取平均,变量值越大,属性分类能力越强。

包裹式选择

针对给定的学习器进行优化,将学习器的性能作为评价特征子集的的评价标准。

LVW算法

它是在拉斯维加斯方法框架下采用随机策略进行特征子集搜索。并以最终分类器的误差作为特征子集的评价标准。

由于采用随机策略,每次特征子集评价计算开销很大,当特征子集误差更小时或误差相当,特征数少时,则保留特征子集。

嵌入式选择

将特征选择与学习器训练融为一体,一同优化,在学习器训练过程中自动进行特征选择。

                                                                                                                                                                                                                                      

原文地址:https://www.cnblogs.com/2016-zck/p/14458306.html