BN_batch normalization

BN_batch normalization

参考：

https://zhuanlan.zhihu.com/p/27938792

做法

设，每个batch输入是 $x=[x_0,x_1,x_2,...,x_n]$ （其中每个 $x_i$ 都是一个样本， $n$ 是batch size）假如在第一层后加入Batch normalization layer后， $h_1$ 的计算就倍替换为下图所示的那样。

矩阵 $x$ 先经过 $W_{h_1}$ 的线性变换后得到 $s_1$

注：因为减去batch的平均值 $mu_B$ 后， $b$ 的作用会被抵消掉，所以没必要加入 $b$ （红色删除线）。

将 $s_1$ 再减去batch的平均值 $mu_B$ ，并除以batch的标准差 $sqrt{sigma_B+epsilon}$ 得到 $s_2$ 。 $epsilon$ 是为了避免除数为0的情况所使用的微小正数。

$mu_B=frac {1}{m} sum^m_{i=0}W_{h_1}x_{i,:}$
$sigma^2_B=frac {1}{m} sum^m_{i=0}(W_{h_1}x_{i,:}-mu_B)^2$
注：但 $s_2$ 基本会被限制在正态分布下，使得网络的表达能力下降。为解决该问题，引入两个新的parameters： $gamma$ 和 $eta$ 。 $gamma$ 和 $eta$ 是在训练时网络自己学习得到的。

将 $s_2$ 乘以 $gamma$ 调整数值大小，再加上 $eta$ 增加偏移后得到 $s_3$ 。
为加入非线性能力， $s_3$ 也会跟随着ReLU等激活函数。
最终得到的 $h_1$ 会被送到下一层作为输入。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $mu_B$ ， $mu_B$ 就会是这个新样本自身， $s_1-mu_B$ 就会成为0。

所以在测试时，所使用的 $mu$ 和 $sigma^2$ 是整个训练集的均值 $mu_P$ 和方差 $sigma^2_P$ 。

而整个训练集的均值 $mu_P$ 和方差 $sigma^2_P$ 的值通常也是在训练的同时用移动平均法来计算

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/abella/p/10282225.html