L1、L2范式及稀疏性约束

假设需要求解的目标函数为：

E(x) = f(x) + r(x)

其中f(x)为损失函数，用来评价模型训练损失，必须是任意的可微凸函数，r(x)为规范化约束因子，用来对模型进行限制，根据模型参数的概率分布不同，r(x)一般有:L1范式约束(模型服从高斯分布)，L2范式约束(模型服从拉普拉斯分布)；其它的约束一般为两者组合形式。

L1范式约束一般为：

L2范式约束一般为:

L1范式可以产生比较稀疏的解，具备一定的特征选择的能力，在对高维特征空间进行求解的时候比较有用；L2范式主要是为了防止过拟合。

稀疏性约束

在文章Non-negative Matrix Factorization With Sparseness Constraints中，将L1范式和L2范式组合起来形成新的约束条件，用稀疏度来表示L1范式和L2范式之间的关系(转发时注：下面公式，根号内应该是求平方和)：

当向量x中只有一个非零的值时，稀疏度为1，当所有元素非零且相等的时候稀疏度为0。n表示向量x的维度。不同稀疏度的向量表示如下：