损失函数：交叉熵

交叉熵用于比较两个不同概率模型之间的距离。即先把模型转换成熵这个数值，然后通过数值去定量的比较两个模型之间的差异。

信息量

信息量用来衡量事件的不确定性，即该事件从不确定转为确定时的难度有多大。

定义信息量的函数为：

\[f(x):=\text{信息量} \]

假设对于某8只球队进行比赛，对于其中任意一直球队，假设夺冠的概率为\(\frac{1}{8}\)。对于一条消息“A球队夺冠了”其信息量应该等于“A球队进入决赛”加上“A球队赢了决赛”之和。即：

\[\begin{align} f(\text{A球队夺冠了})&=f(\text{A球队进入决赛})+f(\text{A球队赢了决赛})\\ f(\frac{1}{8})&=f(\frac{1}{4})+f(\frac{1}{2}) \end{align} \]

而：

\[\begin{align} P(\text{A球队夺冠了})&=P(\text{A球队进入决赛})\cdot P(\text{A球队赢了决赛})\\ \end{align} \]

因此可以推出（其中\(p_i\)表示事件\(i\)在系统\(p\)中发生的概率，下同）：

\[f(p_1\cdot p_2) = f(p_1)+f(px_2) \]

因此可以定义信息量函数（负号是因为事件发生的概率越小，所包含的信息量越大）：

\[f(p) = -log_2(p) \]

熵

熵用来衡量一个系统所包含的信息量有多少。它衡量一个系统的不确定程度，或者混乱程度。

对于一个系统\(P\)来说，要求整个系统的信息量，也就是求系统中每个事件\(i\)，从不确定转为确定性所包含的信息量的平均值，也就是期望。即：

\[\begin{align} H(P):&=E(f_P)\\ &=\sum_{i=1}^mp_i\cdot f(p_i)\\ &=\sum_{i=1}^m p_i\cdot\big(-log_2(p_i)\big)\\ &=-\sum_{i=1}^m p_i\cdot log_2(p_i) \end{align} \]

相对熵与交叉熵

相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

对于两个系统\(P,Q\)，通过相对熵可以衡量\(Q\)相对于\(P\)有多大的差距，即系统\(Q\)想要和系统\(P\)达到一样的分布的话，它们之间相差多少信息量：

\[\begin{align} D_{KL}(P||Q)&=\sum_{i=1}^m p_i\cdot \big(f_Q(q_i)-f_P(p_i)\big)\\ &=\sum_{i=1}^m p_i \cdot \bigg( \big(-log_2(q_i)\big)-\big(-log_2(p_i) \big)\bigg)\\ &=\color{blue}{\sum_{i=1}^m p_i\cdot \big(-log_2(q_i) \big)} - \color{red}{\sum_{i=1}^m p_i \cdot\big(-log_2(p_i) \big)} \end{align} \]

可以发现上述公式中红色部分为系统\(P\)的熵，当系统P没有变化时，这部分是一个恒值。而蓝色部分也就是交叉熵，定义为\(H(P,Q)\)。

又根据吉布斯不等式：

\[\text{若}\sum_{i=1}^np_i=\sum_{i=1}^nq_i=1，\text{且}p_i,q_i\in[0,1]\text{，则有：}\\ -\sum_{i=1}^np_i\cdot log(p_i)\le -\sum_{i=1}^np_i\cdot log(q_i) \]

可知相对熵恒大于\(0\)。因此当系统P没有变化时，若想要\(Q\)系统的概率模型与\(P\)系统的概率模型尽可能相似，只要最小化交叉熵即可。

深度学习中的交叉熵

神经网络的目标：

\[\begin{align} min\;H(P,Q) &= -\sum_{i=1}^m p_i\cdot log_2(q_i) \end{align} \]

在深度学习中，系统\(P\)可以用数据集所表示。系统\(Q\)可以用神经网络模型表示。同样只考虑判断输入是真是假的神经网络，对于\(n\)个数据中的第\(i\)个数据，它在系统\(P\)里发生的概率，也就是为真的概率为\(y_1\)，为假的概率为\(1-y_i\)，同时他在系统\(Q\)里为真的概率，也就是经过神经网络后的输出为\(\hat y_i\)，为假的概率为\(1-\hat y_i\)。因此交叉熵又可表示为：

\[\begin{align} H(P,Q)&=-\sum_{i=1}^n p_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^ny_i\cdot log_2(\hat y_i)+(1-y_i)\cdot log_2(1-\hat y_i) \end{align} \]

是不是跟极大似然估计法的形式一模一样？

到这里可以把\(p_i,q_i\)的意义具体化，其实\(p_i\)应该理解为数据\(i\)在系统\(P\)中的概率分布。同理\(q_i\)应该理解为数据\(i\)在系统\(Q\)中的概率分布。对于判断输入是真是假的神经网络相当于数据\(i\)的输出只有两种可能，为真或者为假，对于多分类\(m\)神经网络，数据\(i\)的输出有\(m\)种可能，交叉熵又可表示为：

\[\begin{align} H(P,Q)&=-\sum_{i=1}^np_i\cdot log_2(q_i)\\ &=-\sum_{i=1}^n\sum_{j=1}^mp_{ij}\cdot log_2(q_{ij}) \end{align} \]

是不是跟极大似然估计法的形式一模一样？

推荐详细讲解视频：https://www.bilibili.com/video/BV15V411W7VB