softmax上溢和下溢

很简单的一个问题,当softmax的变量过大或过小怎么办,比如

softmax([100,101,102])的结果是什么?

有一个方法计算上溢的情况,也就是每个变量都减去最大值,然后做softmax,

所以softmax([100,101,102])和softmax([-2,-1,0])是一样的结果;同样也适用于softmax([-100,-101,-102])的情况

还有一种方法是直接用log softmax

原文地址:https://www.cnblogs.com/yqpy/p/12299206.html