【深度学习】归一化方法

为什么要做归一化？

神经网络学习的本质就是学习数据的分布。如果没有对数据进行归一化处理，那么每一批次训练的数据的分布就有可能不一样。从大的方面来讲，神经网络需要在多个分布中找到一个合适的平衡点；从小的方面来说，由于每层网络的输入数据在不断的变化，这会导致不容易找到合适的平衡点，最终使得构建的神经网络模型不容易收敛。当然，如果只是对输入数据做归一化，这样只能保证数据在输入层是一致的，并不能保证每层网络的输入数据分布是一致的，所以在神经网络模型的中间层也需要加入归一化处理。

现阶段常见的归一化方法主要有：batch noralization(论文：https://arxiv.org/pdf/1502.03167.pdf)、layer normalization(论文：https://arxiv.org/pdf/1607.06450v1.pdf)、instance normalization(论文：https://arxiv.org/pdf/1607.08022.pdf)、group normalization（论文：https://arxiv.org/pdf/1803.08494.pdf）以及switchable normalization(论文：https://arxiv.org/pdf/1806.10779.pdf)

将输入的feature map shape记作 $ [ N, C, H, W] $

这几种方法的主要区别在于：

1. batch normalization(BN)是在batch上，对 $ N, H, W $ 做归一化，而保留通道 $ C $ 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络，如CNN，不适用于RNN；

2. layer normalization(LN)在通道方向上，对 $ C, H, W $ 在做归一化，主要对RNN效果明显；

3. instance normalization(IN)在图像像数上，对 $ H, W $ 做归一化，用在风格化迁移；

4. group normalization(GN)将channel分组，然后再做归一化。

给个子图表示一个特征图，其中 $ N $ 为批量， $ C $ 为通道， $ (H, W) $ 为特征图的高度和宽度。通过蓝色部分的值来计算均值和方差，从而进行归一化。

如果把特征图 $ xin mathbb{R}^{N imes C imes H imes W} $ 比喻成一本书，这摞书总共有 $ N $ 本，每本有 $ C $ 页，煤业有 $ H $ 行，每行有 $ W $ 个字符。

BN求均值时，相当于是报这些书按照页码一一对应地加起来（如，第一本书第36页，第二本书第36页……），再除以每个页码下的字符总数： $ N imes H imes W $ ，因此可以把BN看成求“平均书”的操作（注意这个“平均书”每页只有一个字），求标准差时也是同理。

LN求均值时，相当于把每一本书的所有字加起来，再除以这本书的字符总数： $ N imes H imes W $ ，即求整本书的“平均字”，求标准差也是同理。

IN求均值时，相当于把一页书中所有字加起来，再除以该页的总字数： $ H imes W $ ，即求每页书的“平均字”，求标准差也是同理。

GN相当于把一本 $ C $ 页的书平均分为 $ G $ 份，每份成为有 $ C/G $ 页的小册子，求每个小册子的“平均字”和字的“标准差”。

1.batch normalization，BN

BN的主要思想：针对每个神经元，使数据再进入激活函数之前，沿着通道计算每个batch的均值、方差，“强迫”数据保持均值为0，方差为1的正态分布，避免梯度消失。具体来说，就是把第1个样本的第1个通道，加上第2个样本的第1个通道，……，再加上第 $ N $ 个样本的第1个通道，求平均值，得到通道1的均值（注意是除以 $ N imes H imes W $ ，而不是单纯的除以 $ N $ ，最后得到的是一个代表这个batch第1个通道的平均值，而不是一个 $ H imes W $ 的矩阵）。求通道1的方差也是同理。对所有的通道都施加一边这个操作，就得到了所有通道的均值和方差。

BN的位置：全连接层或者卷积层后，激活函数前。

BN算法流程：

沿着通道计算每个batch的均值 $ mu $
沿着通道计算每个batch的方差 $ sigma ^{2} $
做归一化
加入缩放和平移变量 $ gamma ,eta $

egin{align}
mu &=frac{1}{m}sum_{i=1}^{m}z^{(i)}\
sigma ^{2}&=frac{1}{m}sum_{i=1}^{m}(z^{(i)}-mu)^{2}\
z_{Norm}^{i}&=frac{z^{(i)}}{sqrt{sigma ^{2}+varepsilon }}\
ilde{z}^{(i)}&=gamma z_{Norm}^{i}+eta
end{align}

其中， $ varepsilon $ 是一个很小的正值，如 $ 10^{-8} $ 。加入缩放和平移变量的两个原因：保证每一次数据经过归一化后还保留原有学习到的特征，同时又能完成归一化操作，加速训练。这两个参数是用来学习的参数。

BN的作用：

允许较大的学习率；
减弱对初始化的强依赖性；
保持隐藏层中数值的均值、方差不变，让数值更稳定，为后面的网络提供坚实的基础；
有轻微的正则化作用（相当于给隐藏层加入噪声，类似于dropout）。

BN存在的问题：

每次是在一个batch上计算均值、方差，如果batch太小，则计算的均值、方差不足以代表整个数据分布。
batch size太大：会超过内存容量，需要跑更多的epoch，导致总训练时间边长，会直接固定梯度下降的方向，导致很难更新。

在tensorflow中可以通过使用 $ tf.layers.batch\_normalization() $ 来实现BN。这个operation隐藏了mean，var，alpha和beta参数的显示声明。因此在调用过程中，需要特别注意正确调用的方式。

【使用BN训练】

注意把 $ tf.layers.batch\_normalization(x, training=is\_training,name=scope) $ 输入参数的 $ training=True $ 。此外还需要添加 $ update\_ops $ 以便于每一次训练结束后及时跟新BN参数。

1 update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
2 
3 # 保证train_op在update_ops执行之后再执行
4 with tf.control_dependencies(update_ops):
5     train_op = optimizer.minimize(loss)

【保存带BN的模型】

保存模型的时候，不能只保存trainable_variables，因为BN的参数不属于trainable_variables。为了方便，可以使用tf.global_variables()。使用方法如下：

1 ####
2 saver = tf.train.Saver(var_list=tf.global_variables())
3 
4 savepath = saver.save(sess, 'here_is_your_personal_model_path')
5 ####

【读取带BN的模型】

与保存类似，读取模型的时候，变量也需要为global_variables。

1 saver = tf.train.Saver()
2 
3 # or saver = tf.train.Saver(tf.global_variables())
4 
5 saver.restore(sess, "here_is_your_pesonal_model_path")

在inference的时候还需要把 $ tf.layers.batch\_normalization(x, training=is\_training,name=scope) $ 里的 $ training $ 参数设置为 $ False $

2.layer normalization，LN

针对BN不适用于深度不固定的网络（sequence长度不一致，如RNN），LN对深度网络某一层的所有神经元的输入按照以下公式进行normalization操作：

egin{align}
mu ^{l}&=frac{l}{H}sum_{i=1}^{H}a_{i}^{l}\
sigma ^{l}&=sqrt{frac{l}{H}sum_{i=1}^{H}(a_{i}^{l}-mu ^{l})^{2}}
end{align}

LN中同层神经元的输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差。

对于特征图 $ xin mathbb{R}^{N imes C imes H imes W} $ ，LN对每个样本的 $ C, G, W $ 维度上的数据求均值和标准差，保留维度 $ N $ 。其均值和标准差的计算公式如下：

egin{align}
mu _{n}(x)&=frac{1}{CHW}sum_{c=1}^{C}sum_{h=1}^{H}sum_{w=1}^{W}x_{nchw}\
sigma _{n}(x)&=sqrt{frac{1}{CHW}sum_{c=1}^{C}sum_{h=1}^{H}sum_{w=1}^{W}(x_{nchw}-mu _{n(x)^{2}+varepsilon })}
end{align}

LN的优势时不需要批训练，在单条数据内部就能归一化。LN不依赖batch size和输入sequence的长度，因此可以用在batch size为1的网络和RNN中。LN用于RNN效果比较明显，效果不如BN。

3.instance normalization，IN

IN针对图像像素做normalization，最初用于图像的风格化迁移。在图像风格化中，生成结果主要依赖于某个图像实例，feature map的各个channel的均值和方差会影响到最终生成的图像风格。所以对整个batch归一化不适合图像风格化中，因此对 $ H, W $ 坐归一化。可以加速模型的收敛，并且保持每个图像实例之间的独立。

对于特征图 $ xin mathbb{R}^{N imes C imes H imes W} $ ，IN对每个样本的 $ H, W $ 维度的数据求均值和标准差，保留 $ N, C $ 维度，也就是说，它只在channel内部求均值和标准差，计算公式如下：

egin{align}
y_{tijk}&=frac{x_{tijk}-mu_{ti}}{sqrt{sigma _{ti}^{2}+varepsilon }}\
mu _{ti}&=frac{1}{HW}sum_{l=1}^{W}sum_{m=1}^{H}x_{tilm}\
sigma _{ti}^{2}&=frac{1}{HW}sum_{l=1}^{W}sum_{m=1}^{H}(x_{tilm}=mu_{ti})
end{align}

4.group normalization，GN

GN是为了解决BN对较小的mini-batch size效果差的问题。GN适用于占用显存较大的任务，例如图像分割。对于这类问题，可能batch size只能是个位数，再大显存就不够用了。当batch size是个位数时，BN的表现很差，因为没有办法通过几个样本的数据量来近似总体的均值和方差。GN也是独立于batch的，它是LN和IN的折中方法。

GN的主要思想：在channel方向进行分组（group），然后在每个group内做normalization，计算 $ (C/G)*H*W $ 的均值和方差，这样就使得与batch size无关，不受其约束。

具体实现方法：GN计算均值和标准差时，把每一个样本的feature map的channel分成 $ G $ 组，每组将有 $ C/G $ 个channel，然后将这些channel中的元素计算均值和标准差。各组channel用其对应的归一化参数独立的进行归一化。具体的计算公式如下：

egin{align}
mu _{ng}(x)&=frac{1}{(C/G)HW}sum_{c=gC/G}^{(g+1)C/G}sum_{h=1}^{H}sum_{w=1}^{W}x_{nchw}\
sigma _{ng}(x)&=sqrt{frac{1}{(C/G)HW}sum_{c=gC/G}^{(g+1)C/G}sum_{h=1}^{H}sum_{w=1}^{W}(x_{nchw}-mu _{ng}(x))^{2}+varepsilon }
end{align}

 1 def GroupNorm(x, gamma, beta, G, eps=1e-5):
 2     # x:input features with shape [N,C, H, W]
 3     # gamma, beta: scale and offset, with shape [1, C, 1, 1]
 4     # G: number of groups for GN
 5     N, C, H, W = x.shape
 6     x = tf.reshape(x, [N, G, C // G, H, W])
 7 
 8     mean, var = tf.nn.moments(x, [2, 3, 4], keep_dims=True)
 9 
10     x = tf.reshape(x, [N, C, H, W])
11 
12     return x * gamma + beta

总结

BN是在batch上，对 $ N, H, W $ 做归一化，保留通道 $ C $ 的维度。BN相当于把这些书按照页码一一对应地加起来，再除以每个页码下的字符总数： $ N imes H imes W $ 。
LN在通道的方向上，对 $ C, H, W $ 做归一化。LN相当于把每一本书的所有字加起来，在初一这本书的字符总数： $ C imes H imes W $ 。
IN在图像像素上，对 $ H, W $ 做归一化。IN相当于把一页书中所有字加起来，再除以该页的总字数： $ H imes W $ 。
GN将channel分组，然后再做归一化。GN相当于把一本 $ C $ 页的书平均分成 $ G $ 份，每一份有 $ C/G $ 页的小册子，对每一个小册子做normalization。

此外，还需注意他们的映射参数 $ gamma ,eta $ 的区别：对于BN，IN，GN，其中 $ gamma ,eta $ 都是维度等于通道数 $ C $ 的向量。而对于LN，其 $ gamma ,eta $ 都是维度等于normalized_shape的矩阵。

BN和IN可以设置参数：momentum和track_running_stats来获得在整体数据上更准确的均值和标准差。LN和GN只能计算当前batch内数据的真实均值和标准差。