深度学习权重初始化

Xavier初始化

如果前一层的节点数为n,则初始值使用标准差为$frac{{ m{1}}}{{sqrt n }}$的高斯分布.

Xavier初始值是以激活函数是线性函数为前提而推导出来的。因为sigmoid函数和 tanh函数左右对称,且中央附近可以视作线性函数,所以适合使用Xavier初始值。  

He初始值

当激活函数使用ReLU时,一般推荐使用ReLU专用的初始值,也就是Kaiming He等人推荐的初始值,也称为“He初始值” 。当前一层的节点数为n时, He初始值使用标准差为$frac{{ m{2}}}{{sqrt n }}$的高斯分布。当Xavier初始值是$frac{{ m{1}}}{{sqrt n }}$时,(直观上)可以解释为,因为ReLU的负值区域的值为0,为了使它更有广度,所以需要2倍的系数

参考博客

https://blog.csdn.net/manong_wxd/article/details/78734725

https://blog.csdn.net/BVL10101111/article/details/70787683

https://zhuanlan.zhihu.com/p/39015193

原文地址:https://www.cnblogs.com/xumaomao/p/11234036.html