Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

一、稀疏模型

所谓稀疏,即w中不相关特征的权重置0,因此也称“特征选择”。实际应用中只选择总特征的1/3,其他权重赋0。特征选择简化了模型,避免维度灾难,提高了推广性。

二、贝叶斯特征选择

(1)spike & slab模型,L0正则(非零项个数)

选择还是不选择服从Bernoulli分布,先验为:

image

似然为:

image

image

若似然不能解析求解,可用BIC(贝叶斯信息准则,见3)近似:

image

后验为:

image,其中image

整理得目标函数:

image

式子是不是很熟悉,与岭回归一样,就是L2正则变为L0正则,估计参数w的同时完成了特征选择!但L0很难优化。对于给定的image,可以得到解析解:image。可以贪心搜索(最佳单特征替换SBR、正交最小二乘OLS、正交投影寻踪OMP)以降低计算量。

(2)Lasso回归,L1正则(绝对值和)

特征选择也可以用L1正则,因为L1模是L0模的最小凸近似。目标函数变为:

image

Lasso相关知识点在线性回归模型中已总结。

三、信息准则(用于模型选择,每次增加或减少一个特征,选择风险最小的模型)

(1) AIC赤池信息准则

AIC(M)=-2L(M)+2p,其中L(M)为模型M的对数似然函数,p为模型M的特征个数(表示模型复杂度)。

(2) BIC贝叶斯信息准则

BIC(M)=-2L(M)+(logN)p

四、稀疏贝叶斯学习(SBL/ARD自动相关确定)

w的先验分布:

image

数据D的似然:

image,其中image

边缘似然:

image

w的后验分布:

image

其中imageimage,其中A为a的对角阵。不知道a和b可以将之积分掉,但计算困难,因此一般用最佳a和b的值替代。估计a和b又称为超参数估计,估计方法:梯度下降法、迭代算法。优化使得a的很多成分值很大,导致相应w元素的后验方差/均值为0,因此可去掉这些元素使模型稀疏。

五、 Sparse Coding稀疏编码(非监督学习:数据重构)

若W为超完备正交阵,用W的基向量线性表示观测数据x(组合系数z稀疏)称之为稀疏编码,即重构x为z。其中W称为字典,每列成为词项(原子),通常采用DCT(余弦相似度)基。稀疏编码就是加上L1正则的超完备基重构。例如一个信号可近似重构为超完备基的线性组合,其中非零元较少。

似然可近似为:

image

若p(z)为Laplace分布,则-log似然为:

image

固定z优化W为二次规划问题;固定W优化z为Lasso问题。因此采用EM算法迭代优化直至收敛使NLL最小。

六、Compressed Sensing压缩感知

假设观测不到数据x,只观测到其低维表示y(y=Rx+e,e为白噪声,R为感知矩阵),可重构y求出x。与稀疏编码类似,目标是重构x,即求p(x|y,R),图例如下:

image

自然信号可由少量基函数线性组合表示x=Wz,已知x的低维表示y求z的过程称为压缩感知(y=Rx=RWz=R'z)。合适的字典W一般为小波基或通过稀疏编码学习到自适应的基,图例如下:

imageimage

原文地址:https://www.cnblogs.com/jizhiyuan/p/3421454.html