最近有在面试一些公司，有被问题关于lr的一些问题，还有包括L1和L2正则的一些问题，回答的不是很好，发现有时候自己明白了，过了一阵子又会忘记，现在整理整理，写成博客防止以后再次忘记

我们基于lr模型来讲正则，首先y=sigmiod（wx+b）这是基本的lr模型。损失函数为0,1交叉熵，

L1正则：

l2 正则：

使用等高线图来表示原目标函数的图像为（假定只有两个参数）：

也就是说，当参数

　　第一个图中菱形即为

讨论为什么l1正则之后的特征参数是稀疏的？

因为观察发现**几乎对于很多原函数等高曲线，和某个菱形相交的时候及其容易相交在坐标轴（比如上图）：

另外一考虑正则项导数的情况，l1正则的倒数不是-1就是1，所以会很容易收敛到0；然而l2正则的倒数是线性函数，w越靠近0的话导数就越小，这会让w无限趋近于0，但不会收敛到0；

l1正则不可导怎么处理？

坐标轴下降法

参考链接: https://www.cnblogs.com/lliuye/p/9354972.html