CV baseline之GoogLeNet v2

作业

1：文字回答：Batch Normalization 层中的加减乘除是什么意思？

减均值，除以标准差，乘gamma,加beta

2：文字回答：Batch Normalization 层中均值和标准差通过什么方式得到？

均值和标准差通过指数滑动平均统计得来

3：文字回答：采用Batch Normalization 对神经网络带来怎样的收益？

BN特性，只要加了BN不管用什么初始化方法都可以得到很好的效果；BN可充当正则；减小L2正则项因子，除以了5，控制约束权重尺度，把数值从饱和区拉回非饱和区

加速学习率衰减；移除LRN；更彻底的进行shuffle；减少图像光照扭曲（把数据都标准化一个区间了）

4：文字回答：读完该论文，对你的启发点有哪些？

1）两个模型组合优点，放在一句话：加速14倍是BN-x5，获得显著提升是BN-x30

2）0均值，1标准差的数据分布可加速网络训练

3）即使不去相关，0均值，1方差的数据分布也可加快网络训练

4）推理时，BN相当于线性变换，即缩放加平移，进一步的，可将BN层融合到卷积层中

5）bias作用被抵消，因此不需要bias,并且线性变换中的beta可充当bias

6）卷积层的BN中，不仅考虑batch维度，还考虑空间维度，以feature map维度进行求取均值，方差

7）一个样本的计算受到其它样本的约束，可认为是一种正则约束

8）堆叠使用2个3x3卷积，全面替换5x5卷积，并且基于更多卷积核

9）加速BN的7个改变：BN特性；BN可充当正则；减小L2正则项因子，除以了5，控制约束权重尺度，把数值从饱和区拉回非饱和区

加速学习率衰减；移除LRN；更彻底的进行shuffle；减少图像光照扭曲（把数据都标准化一个区间了）

10）GoogLeNet-V1采用ReLU和Sigmoid,获得的精度几乎是一样的，即ReLU在V1中并没有提升精度

11）GoogLeNet-V1训练到收敛，用了大约826个epochs,这一个数据在V1论文中从未给出

12）下一步工作：研究RNN中BN的效用，以及BN在预适应领域的应用

5：文字：本篇论文的学习笔记及总结