l1 和l2范数的真实意义

很长时间一直没有明白真实的含义，十一期间补充一下这方面的知识。

l0 范数是 ||x||0 = xi (xi不等于0)代表非0数字的个数，[1,2,3,4,5] 非0个数为5，[0,1,2,0,3]非0 个数为3

l1范数是||x||1=Σ|xi| x与0之间的曼哈顿距离，[1,2,3,-2,-1] =1+2+3+2+1 =9,为个数字的绝对值的和。

l2范数是||x||2=Σ|xi|^2为x与0之间的欧式距离，[1,2,-3]=1^2+2^2+(-3)^2=1+4+9=14,为各个数字的平方和在开方。

lp范数是||x||p=√∑（xi）^p。控制模型复杂度减少过拟合。一般在损失函数中加入惩罚项。

l1和l2为什么可以减少过拟合。模型复杂就是因为w参数较多，所以模型比较复杂。w=[w1,w2,w3,w4,w5,....,wn]让其中某些为0，某些不为0，那就是l0范数

目标函数为： min J(wxi,y） s.t |w|0<=C 最优问题无法解决。|w|1和|w|2可以限制小于常数C

构造拉格朗日函数 L（w，α） = J（wxi,y）+α(|w|1-C） L（w，α） = J（wxi,y）+α(|w|2-C）=J(wxi;y)+α|w|2-αC=minJ(wxi,y)+α|w|2

如果是二维的话既要最小化损失函数，又要简化后面的惩罚项，当时1范数的时候，当w1，w2是两个坐标所以就是一个斜倒正的正方形可以清晰的看出w1或者w2为0.

当二范数的时候，就是圆和等高线的交集。