(原)softmax loss特征为何径向放射状分布(直观理解,非公式推导。。。)

转载请注明出处:

https://www.cnblogs.com/darkknightzh/p/12592291.html

本文仅为本人的一点理解,如有不正确的地方,或者读者已经懂了,则不用浪费时间看本文了O(∩_∩)O

softmax loss定义如下:

$L=-frac{1}{m}sumlimits_{i=1}^{m}{log left( frac{{{e}^{W_{yi}^{T}{{x}_{i}}+{{b}_{yi}}}}}{sumlimits_{j=1}^{n}{{{e}^{W_{j}^{T}{{x}_{i}}+{{b}_{j}}}}}} ight)}$

其中$W$为分类层的权重,$x$为分类层的输入特征,$b$为分类层的偏置。

上式$frac{{{e}^{W_{yi}^{T}{{x}_{i}}+{{b}_{yi}}}}}{sumlimits_{j=1}^{n}{{{e}^{W_{j}^{T}{{x}_{i}}+{{b}_{j}}}}}}$为softmax,即当前样本分为第i类的概率。

论文中当分类层为2个类别时,可视化后的特征(即上面公式中的)如下,均为径向放射状分布(图片来自center loss的论文)

特征径向放射状分布,原因如下图所示。假设${{w}_{1}}$和${{w}_{2}}$为分类层两个类别的权重向量。$x$为某个特征(图中对应${{x}_{1}}$和${{x}_{2}}$,指代优化前后的特征),且假定该特征对应类别为${{w}_{1}}$。由softmax loss的公式可见,若使得loss更小,需要当前样本正确分类的概率$frac{{{e}^{W_{yi}^{T}{{x}_{i}}+{{b}_{yi}}}}}{sumlimits_{j=1}^{n}{{{e}^{W_{j}^{T}{{x}_{i}}+{{b}_{j}}}}}}$更大,进一步需要${{e}^{W_{yi}^{T}{{x}_{i}}+{{b}_{yi}}}}$更大(或者说${{e}^{W_{yi}^{T}{{x}_{i}}+{{b}_{yi}}}}$增长的比${{e}^{W_{j}^{T}{{x}_{i}}+{{b}_{j}}}}|j e {{y}_{i}}$增长的更大)。

在忽略偏置$b$的情况下,由于$Wx ext{=}left| W ight|left| x ight|cos ( heta )$,即$W$模长和$x$模长和$W$及$x$的夹角的乘积。若假定$left| W ight|$不变,则有两种方式:

① 增大$left| x ight|$,导致特征模长越来越大。

② 增大$cos ( heta )$,即降低$W$及$x$的夹角$ heta $,因而导致$x$在$W$方向上径向分布。

综合起来,特征便呈现径向放射状分布。

下面举一个简单的例子。假设${{x}_{1}}$在${{w}_{1}}$和${{w}_{2}}$上投影是0.4,0.3,${{x}_{2}}$投影是0.8,0.6,由于cos作为权重,导致最终在${{w}_{1}}$上增加的幅度大于在${{w}_{2}}$上增加的幅度,样本被分为第一类的概率增大(loss减小),因而下一时刻(即${{x}_{2}}$)会越来越呈现放射状(离原点越来越远,对应分类概率越来越大);另一方面,还需要分类正确,即$x$到${{w}_{1}}$的夹角${{ heta }_{1}}$小于$x$到${{w}_{2}}$的夹角${{ heta }_{2}}$,因而最终特征会沿着对应$W$的方向径向分布;综合起来,特征会呈现径向放射状分布。

原文地址:https://www.cnblogs.com/darkknightzh/p/12592291.html