交叉熵与Softmax

分类问题中,交叉熵常与softmax结合使用,交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。

交叉熵损失函数Cross Entropy Loss

“信息是用来消除随机不确定性的东西”,信息量大小与信息发生的概率成反比,概率越大,信息量越小;概率越小,信息量越大。

信息量I(x)=log(P(x))

信息熵用来表示信息量的期望: 

 相对熵(KL散度)

如果对于同一个随机变量X有两个单独的概率分布P(x)和Q(x),则我们可以使用KL散度来衡量这两个概率分布之间的差异。KL值越小表示两个概率分布更加接近。

 交叉熵

 Softmax

Softmax常作为输出层的激励函数,这样输出层的加和为1。

 softmax求导

 

 即yi-1就是反向更新的梯度。

 

原文地址:https://www.cnblogs.com/larry-xia/p/12559804.html