CV baseline之GoogLeNet v2

作业

1:文字回答:Batch Normalization 层中的加减乘除是什么意思?

减均值,除以标准差,乘gamma,加beta

2:文字回答:Batch Normalization 层中均值和标准差通过什么方式得到?

均值和标准差通过指数滑动平均统计得来

3:文字回答:采用Batch Normalization 对神经网络带来怎样的收益?

BN特性,只要加了BN不管用什么初始化方法都可以得到很好的效果;BN可充当正则;减小L2正则项因子,除以了5,控制约束权重尺度,把数值从饱和区拉回非饱和区

加速学习率衰减;移除LRN;更彻底的进行shuffle;减少图像光照扭曲(把数据都标准化一个区间了)

4:文字回答:读完该论文,对你的启发点有哪些?

1)两个模型组合优点,放在一句话:加速14倍是BN-x5,获得显著提升是BN-x30

2)0均值,1标准差的数据分布可加速网络训练

3)即使不去相关,0均值,1方差的数据分布也可加快网络训练

4)推理时,BN相当于线性变换,即缩放加平移,进一步的,可将BN层融合到卷积层中

5)bias作用被抵消,因此不需要bias,并且线性变换中的beta可充当bias

6)卷积层的BN中,不仅考虑batch维度,还考虑空间维度,以feature map维度进行求取均值,方差

7)一个样本的计算受到其它样本的约束,可认为是一种正则约束

8)堆叠使用2个3x3卷积,全面替换5x5卷积,并且基于更多卷积核

9)加速BN的7个改变:BN特性;BN可充当正则;减小L2正则项因子,除以了5,控制约束权重尺度,把数值从饱和区拉回非饱和区

加速学习率衰减;移除LRN;更彻底的进行shuffle;减少图像光照扭曲(把数据都标准化一个区间了)

10)GoogLeNet-V1采用ReLU和Sigmoid,获得的精度几乎是一样的,即ReLU在V1中并没有提升精度

11)GoogLeNet-V1训练到收敛,用了大约826个epochs,这一个数据在V1论文中从未给出

12)下一步工作:研究RNN中BN的效用,以及BN在预适应领域的应用

5:文字:本篇论文的学习笔记及总结

 

原文地址:https://www.cnblogs.com/sariel-sakura/p/13446960.html