Lasso回归笔记

1.定义（百度百科）

LASSO是由1996年Robert Tibshirani首次提出，全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些回归系数，即强制系数绝对值之和小于某个固定值；同时设定一些回归系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。

主要应用于训练数据集较小，但是特征维度较多的时候。

2.筛选特征

当一个模型具有较多特征的时候例如特征包括（f1，f2，f3，f4），

假设有以上四个特征，这些特征可能起到的作用是不一样的，为了减少计算量，我们需要筛选出主要的特征，即得分较高的特征组合。使用的方法有三种枚举法，贪心算法，正则（目标函数）法

1）枚举法

这种方式比较容易理解，就是列举出这个集合下的所有子集 {f1} {f2} {f3} {f4}

{f1,f2} {f1,f3} {f1,f4} 等等，然后分别计算每种情况下的得分情况，选出最好的特征集合。

2）贪心算法

如果采用贪心算法，有两种方式，有从空集增加，或者全集减少。

增加法：依次计算只有一个特征的时候的得分选取最高值例如是{f2}，下一步在这个集合的基础上增加一个特征继续计算，找到得分更高的即可加入集合。如果，某一步计算的所有得分，都小于上一步的得分，此时即可停止。

减少法：方法基本和上述一样，开始结果集包括{ f1，f2，f3，f4} ，依次去掉一个特征计算得分，选取最高，且大于上一步得分的结果，如果不存在大于上一步的，则终止。

3）正则目标函数