损失函数:交叉熵

损失函数:交叉熵

交叉熵用于比较两个不同概率模型之间的距离。即先把模型转换成熵这个数值,然后通过数值去定量的比较两个模型之间的差异。

信息量

信息量用来衡量事件的不确定性,即该事件从不确定转为确定时的难度有多大。

定义信息量的函数为:

\[f(x):=\text{信息量} \]

假设对于某8只球队进行比赛,对于其中任意一直球队,假设夺冠的概率为\(\frac{1}{8}\)。对于一条消息“A球队夺冠了”其信息量应该等于“A球队进入决赛”加上“A球队赢了决赛”之和。即:

\[\begin{align} f(\text{A球队夺冠了})&=f(\text{A球队进入决赛})+f(\text{A球队赢了决赛})\\ f(\frac{1}{8})&=f(\frac{1}{4})+f(\frac{1}{2}) \end{align} \]

而:

\[\begin{align} P(\text{A球队夺冠了})&=P(\text{A球队进入决赛})\cdot P(\text{A球队赢了决赛})\\ \end{align} \]

因此可以推出(其中\(p_i\)表示事件\(i\)在系统\(p\)​中发生的概率,下同):

\[f(p_1\cdot p_2) = f(p_1)+f(px_2) \]

因此可以定义信息量函数(负号是因为事件发生的概率越小,所包含的信息量越大):

\[f(p) = -log_2(p) \]

熵用来衡量一个系统所包含的信息量有多少。它衡量一个系统的不确定程度,或者混乱程度。

对于一个系统\(P\)​​​来说,要求整个系统的信息量,也就是求系统中每个事件\(i\),从不确定转为确定性所包含的信息量的平均值,也就是期望。即:

\[\begin{align} H(P):&=E(f_P)\\ &=\sum_{i=1}^mp_i\cdot f(p_i)\\ &=\sum_{i=1}^m p_i\cdot\big(-log_2(p_i)\big)\\ &=-\sum_{i=1}^m p_i\cdot log_2(p_i) \end{align} \]

相对熵与交叉熵

相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

对于两个系统\(P,Q\)​,通过相对熵可以衡量\(Q\)​​相对于\(P\)​​​​有多大的差距,即系统\(Q\)​想要和系统\(P\)​达到一样的分布的话,它们之间相差多少信息量:

\[\begin{align} D_{KL}(P||Q)&=\sum_{i=1}^m p_i\cdot \big(f_Q(q_i)-f_P(p_i)\big)\\ &=\sum_{i=1}^m p_i \cdot \bigg( \big(-log_2(q_i)\big)-\big(-log_2(p_i) \big)\bigg)\\ &=\color{blue}{\sum_{i=1}^m p_i\cdot \big(-log_2(q_i) \big)} - \color{red}{\sum_{i=1}^m p_i \cdot\big(-log_2(p_i) \big)} \end{align} \]

可以发现上述公式中红色部分为系统\(P\)​​的熵,当系统P没有变化时,这部分是一个恒值。而蓝色部分也就是交叉熵,定义为\(H(P,Q)\)

又根据吉布斯不等式

\[\text{若}\sum_{i=1}^np_i=\sum_{i=1}^nq_i=1,\text{且}p_i,q_i\in[0,1]\text{,则有:}\\ -\sum_{i=1}^np_i\cdot log(p_i)\le -\sum_{i=1}^np_i\cdot log(q_i) \]

可知相对熵恒大于\(0\)。因此当系统P没有变化时,若想要\(Q\)系统的概率模型与\(P\)系统的概率模型尽可能相似,只要最小化交叉熵即可。

深度学习中的交叉熵

神经网络的目标:

\[\begin{align} min\;H(P,Q) &= -\sum_{i=1}^m p_i\cdot log_2(q_i) \end{align} \]

在深度学习中,系统\(P\)可以用数据集所表示。系统\(Q\)可以用神经网络模型表示。同样只考虑判断输入是真是假的神经网络,对于\(n\)个数据中的第\(i\)个数据,它在系统\(P\)里发生的概率,也就是为真的概率为\(y_1\),为假的概率为\(1-y_i\),同时他在系统\(Q\)里为真的概率,也就是经过神经网络后的输出为\(\hat y_i\),为假的概率为\(1-\hat y_i\)。因此交叉熵又可表示为:

\[\begin{align} H(P,Q)&=-\sum_{i=1}^n p_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^ny_i\cdot log_2(\hat y_i)+(1-y_i)\cdot log_2(1-\hat y_i) \end{align} \]

是不是跟极大似然估计法的形式一模一样?

到这里可以把\(p_i,q_i\)​​的意义具体化,其实\(p_i\)​​应该理解为数据\(i\)​​在系统\(P\)​​中的概率分布。同理\(q_i\)​​应该理解为数据\(i\)​​在系统\(Q\)​​​中的概率分布。对于判断输入是真是假的神经网络相当于数据\(i\)​​​的输出只有两种可能,为真或者为假,​对于多分类\(m\)​​神经网络,数据\(i\)​​的输出有\(m\)​​种可能,交叉熵又可表示为:

\[\begin{align} H(P,Q)&=-\sum_{i=1}^np_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^n\sum_{j=1}^mp_{ij}\cdot log_2(q_{ij}) \end{align} \]

是不是跟极大似然估计法的形式一模一样?

推荐详细讲解视频:https://www.bilibili.com/video/BV15V411W7VB

原文地址:https://www.cnblogs.com/Hi-Simon/p/15091794.html