（六）6.18 cnn 的反向传导算法

本文主要内容是 CNN 的 BP 算法，看此文章前请保证对CNN有初步认识，可参考 Neurons Networks convolutional neural network（cnn）。

网络表示

CNN相对于传统的全连接DNN来说增加了卷积层与池化层，典型的卷积神经网络中（比如LeNet-5 ），开始几层都是卷积和池化的交替，然后在靠近输出的地方做成全连接网络，这时候已经将所有两维2D的特征maps转化为全连接的一维网络的输入。在前向传导或城中中，也只有两处与传统的 MLP 有所不同，分别是卷积层前向传导，与 pooling 传导到卷积层，如下图所示：

在上图中，层 $(l-1)$ 可以为pooling 层或是输入层，$(l)$ 层对 $(l-1)$ 层进行卷积操作，$(l+1)$ 对 $(l)$ 进行pooling操作。

符号表示

$K^{(l-1)}$：$(l-1)$ 层用到的卷积核，即$(l-1)$ 层的权值参数；

$K^{(l-1)}_{ij}$：从 $(l-1)$层映射到 $(l)$ 层Feature Map j 所用到的卷积核 $j$ 的第 $i$ 个卷积模板；

$b^{(l-1)}$：$(l-1)$ 层的偏置参数；

$b^{(l-1)}_j$：映射到 $(l)$ 层中的 Feature Map j 的偏置参数；

$w^{(l)}$：表示 $(l)$ 层的参数；

$w^{(l)}_j$：卷积层第 j 个Feature Map 到 pooling 层第 j 个 Feature Map 是一一对应关系，即每个Feature Map 对应一个$w^{(l)}_j$；

$b^{(l)}$：$(l)$ 层的偏置参数;

$b^{(l)}_j$：卷积层第 j 个Feature Map 到pooling层第 j 个 Feature Map的偏置参数；

$z^{(l)}$：$(l)$ 层的输入；

$a^{(l)}$：$(l)$ 层的输出.

前向传导

CNN 的前向传导，首先从 $(l-1)$ 层到 $(l)$ 层，此处一般为多对多的形式，即对多个通道进行卷积操作，生成多个Feature Map，$(l)$ 层第 j 个Feature Map的输入 $z_j^{(l)}$ 的计算如下：

[mathbf{z}_j^{(l)} = left ( sum_{j in M_j}mathbf{a}_i^{(l-1)}*mathbf{K}_{ij}^{(l-1)} ight)+b_j^{(l-1)}]

需要注意：这里 $mathbf{z}_j^{(l)},mathbf{a}_i^{(l-1)},mathbf{K}_{ij}^{(l-1)}$ 均为向量形式，" * "表示卷积操作，$mathbf{z}_j^{(l)}$ 代表第j 个 Feature Map 的输入，$mathbf{a}_i^{(l-1)}$ 代表第 $(l-1)$ 层第 i 个 Feature Map的输出，$mathbf{K}_{ij}^{l-1}$ 代表第 j 个卷积核中第 i 个卷积模板，要生成 $(l)$ 层的第 j 个Feature Map，需要对 $(l-1)$ 层的 $M_j$ 个通道同时进行卷积操作，对得到的结果加偏置求和即可。

第 $(l)$ 层的输出只需要对输入$z_j^{(l)}$ 做一个激活函数即可：

综上，从层到层可以用下图描述：

接下来从到传导到第层，此处对应pooling 操作，一般为一对一的形式，层的第 N 个 Feature Map 生成层的N个 Feature Map ，计算过程如下：

这里down(.)对应的是一个下采样（sub-sampling）函数，这个函数会对层的输出中的n-n的像素块进行pooling操作，使得输出在横纵方向都缩小n倍。经过down(.)操作后，与有相同的 size 根据以上公式计算即可。同理，输出继续做一个映射：

至此，前向传导过程已经可以求得，接下来与MLP类似，就是根据链式求导法则，求得残差的反向传导。

前馈（Back Propagation）

对于 pooling 层，假设已知其第 j 个Feature Map 的残差向量，将其传导到，即pooling层的误差传导到卷积层：

比如对于，即层的第 j 个 Feature Map 的残差项如下图左，对其做操作，得到下图右：

　　　　后

操作与相反，操作会还原的残差map，使其与卷积层的map大小一致，即还原到down(.)之前的大小。这里残差为一对一传递，将层的map的激活函数的偏导数与从第层的得到的残差map逐元素相乘，最后乘以参数即可，注意这里为一个常量，每个Feature Map j 对应一个参数。

卷积层与层一般为多对多的关系，根据以上分析求得了卷积层的残差项，接下来就是卷积层的残差反向传导的过程。卷积层前面分两种情况，1）若卷积层前面为pooling层，则上面假设已知的就是根据这里的推导所求得，并不是凭空出现。2）卷积层前面为初始输入。

首先回忆卷积过程，卷积核 j 会对层多个通道进行卷积（每个通道对应 j 的一个卷积模板）求和，才会得到得到层的第 j 个 Feature Map，所以层的通道 i 的残差项应该由与之相关的层的所有Feature Map j 共同前向传导。假设与层的通道 i 相关的的所有Feature Map 共有 M 个，则有：

后做卷积的意思是完全卷积假设输入图像 A 大小为 a x b，卷积核 B 大小为c x d，操作会对A进行填充，在 A 左右各填充（d-1）列，上下各填充（c-1）行，即后 A 的大小变为( a+2c-2)x(b+2d-2),用B对后的A做卷积，则卷积返回的大小为（a+b-1）x（a+b-1）。即为旋转180度。