梯度爆炸是啥

连续乘法导致的梯度的衰减,
如果在连续乘法中出现一个非常大的值,最后计算出的梯度就会很大,
如果以这个梯度值进行更新,那么这次迭代的步长就很大,可能会一下子飞出了合理的区域。

原文地址:https://www.cnblogs.com/icemiaomiao3/p/15042454.html