Batch Normalization 反向传播（backpropagation ）公式的推导

反向传播梯度下降权值参数更新公式的推导全依赖于复合函数求梯度时的链式法则。

1. Batch Normalization

给定输入样本 x∈RN×D，经过一个神经元个数为 H 的隐层，负责连接输入层和隐层的权值矩阵 w∈RD×H，以及偏置向量 b∈RH。

Batch Normalization 的过程如下：

首先我们来看损失函数 L 关于隐层输入偏导的计算：

d L d h = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ d L d h 11 . . d L d h N 1 . . d L d h k l . . . d L d h 1 H . . d L d h N H ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ .

又由于：

h = X W + b, h \Rightarrow h^, h^\Rightarrow y

由链式法则可知：

\partial L \partial h i j = \sum k, l \partial L \partial y k l \partial y k l \partial h ^ k l \partial h ^ k l \partial h i j

显然其中 ∂ykl∂h^kl=γl，

又由于：

h ˆ k l = (h k l - μ l) (σ 2 l + ϵ) - 1 / 2, μ l = 1 N \sum p h p l, σ 2 l = 1 N \sum p (h p l - μ l) 2

所以：

d h ^ k l d h i j = (δ i k δ j l - 1 N δ j l) (σ 2 l + ϵ) - 1 / 2 - 1 2 (h k l - μ l) d σ 2 l d h i j (σ 2 l + ϵ) - 3 / 2

根据 σ2l 与 hij 的计算公式可知：

d σ 2 l d h i j = = = = 2 N \sum p (h p l - μ l) (δ i p δ j l - 1 N δ j l) （ 只 有 在 p = 1 时 ） 2 N (h i l - μ l) δ j l - 2 N δ j l ⎛ ⎝ 1 N \sum p (h p l - μ l) ⎞ ⎠ 2 N (h i l - μ l) δ j l - 2 N δ j l ⎛ ⎝ 1 N \sum p h p l - μ l ⎞ ⎠ （ 显 然 右 侧 为 0 ） 2 N (h i l - μ l) δ j l