ubuntu之路——day7.4 梯度爆炸和梯度消失、初始化权重、梯度的数值逼近和梯度检验

梯度爆炸和梯度消失:

W[i] > 1:梯度爆炸(呈指数级增长)

W[i] < 1:梯度消失(呈指数级衰减) *.注意此时的1指单位矩阵,W也是系数矩阵

初始化权重:

np.random.randn(shape)* np.sqrt(2/n[l-1]

Relu:np.sqrt(2/n[l-1])

Tanh:np.sqrt(1/n[l-1])

其他的做法:np.sqrt(2/n[l-1]+n[l])

梯度的数值逼近:

使用双边误差逼近比单边误差逼近更准确

f(θ+ε) - f(θ-ε) / 2ε 比 f(θ+ε) - f(θ) / ε更准确

梯度检验:

一种debug方式、不能和dropout方法共同运行

原文地址:https://www.cnblogs.com/NWNU-LHY/p/11188992.html