批标准化 Batch Normalization

2018-12-05 20:28:15

在机器学习领域有一个很重要的假设，即独立同分布假设，也就是说训练集和测试集是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。

为什么深度神经网络随着网络深度加深，训练起来越困难，收敛越来越慢？

有很多研究人员都致力于研究这个问题，也提出了很多行之有效的方法，BN就是google小组在论文Batch Normalizatoin中提出来的方法。他们指出模型在训练过程中Internal Covariate Shift 会导致模型收敛变慢且训练效果变差，其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为，每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难。

（随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值，所以这导致后向传播时低层神经网络的梯度消失）

为了解决ICS问题，就引入了BN层，对隐含的输出也进行标准化，同时引入扩展参数 gamma, 和平移参数 β, 这样神经网络就能自己慢慢琢磨出前面的 normalization 操作到底有没有起到优化的作用, 如果没有起到作用, 我就使用 gamma 和 belt 来抵消一些 normalization 的操作。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $mu_B$ ， $mu_B$ 就会是这个新样本自身， $s_1-mu_B$ 就会成为0。

所以在测试时，所使用的 $mu$ 和 $sigma^2$ 是整个训练集的均值 $mu_P$ 和方差 $sigma^2_P$ 。

而整个训练集的均值 $mu_P$ 和方差 $sigma^2_P$ 的值通常是使用指数加权平均进行计算得到的。

指数加权平均 : v_i = beta * v_i - 1 + (1 - beta) * nums_i

其中beta是一个超参，一般来说可以看作1 / (1 - beta) 为平均的batch的数目。比如取beta = 0.9，那么就表明大概得到的是近10天的平均值。