softmax函数

该函数作用于输出层之上,用于改善输出层神经元饱和时与该神经元直接相关的w和bias学习率下降的问题。

定义:

  

这表明,在用柔性最大值函数定义输出神经元的输出时,神经元的输出是一种概率分布,所有输出层神经元的输出之和为1.

对应的权重输入为:

   

上式中的C表示常量。

在使用柔性最大值函数作为sigma函数的时候,损失函数定义为对数似然函数:

  其中y表示期望值,如果当网络比较自信时,那么就一个比较大的概率,此时C的值就会较小,反之较大。

原文地址:https://www.cnblogs.com/zhangcaiwang/p/6979154.html