【论文阅读】Bag of Tricks for Image Classification with Convolutional Neural Networks

原文：https://arxiv.org/pdf/1812.01187.pdf
首先介绍一下本文构建的Baseline——
Training:

Validation:

Tricks

线性缩放学习率。初始学习率为0.1*bs/256。因为BS增大，mini-batch梯度的噪声减少，随机梯度的期望不变，但是方差降低，因此初试学习率可以变大。
预热学习率。假设初始学习率为0.1，决定让前4个epoch作为预热，那么，学习率分别设置为0.1*i/5，i表示epoch。
Zero γ。对于BN层来说，γx+β，一般来说γ初始化为1。初始化所有residual block的最后一层BN层的γ= 0，那么所有residual的块只返回它们的输入，模拟的网络层数较少，而且在初始阶段更容易训练。
没有bias decay。将权值衰减应用于卷积层和全连通层的权值。其他参数,包括bias和BN层的γ、β都不衰变。
个人观点：不考虑大BS的话，我们能常用到的就是第二个和第三个了。

新的硬件增强了用于较低精度数据类型的算术逻辑单元。使用FP16代替FP32，训练速度会更快。

与阶跃衰减相比，余弦衰减从一开始学习就开始衰减，但一直保持较大，直到阶跃衰减使学习速率降低10x，这可能会提高训练进度。

使用教师模型来帮助训练当前模型（被称为学生模型）。教师模型通常是具有更高准确率的预训练模型，因此通过模仿，学生模型能够在保持模型复杂性相同的同时提高其自身的准确率。一个例子是使用 ResNet-152 作为教师模型来帮助训练 ResNet-50。

也是一种数据增强的方法。