CNN反向传播更新权值

背景

反向传播(Backpropagation)是训练神经网络最通用的方法之一，网上有许多文章尝试解释反向传播是如何工作的，但是很少有包括真实数字的例子，这篇博文尝试通过离散的数据解释它是怎样工作的。

Python实现的反向传播

你能使用Python来实现反向传播，我曾经在this Github repo上实现了反向传播算法。

反向传播的可视化

显示神经网络学习时相互作用的可视化，检查我的Neural Network visualization。

另外的资源

如果你发现这个教程对你有用并且想继续学习神经网络以及它的应用，我强烈建议你看Adrian Rosebrock优秀的教程 Getting Started with Deep Learning and Python。

概述

对于这个教程，我们将使用2个输入神经元、2个隐含层神经元以及2个输出层神经元组成一个神经网络，另外，隐含层和输出层神经元各包含一个偏差。
这是基本结构：
这里写图片描述

目的让神经网络工作，我们对权重、偏差和训练的输入/输出设置一个初始值：
这里写图片描述

反向传播的目的是优化权重，以便于让神经网络学习怎样正确的把任意的输入映射到输出中。

这篇教程的剩余部分我们将要和单一的训练集工作：输入0.05和0.10，我们想要神经网络输出0.01和0.99。

前向反馈

为了开始，当前给定权重和偏差以及输入值0.05和0.10，神经网络预测结果是什么，我们需要把输入值向前传给网络。

我们知道全部的输入值传到每个隐含层神经元中，使用激活函数挤压全部的输入值(在这里，我们使用logistic函数)，对输出层神经元重复这一过程。

计算 $h_{1}$ 的输入：
这里写图片描述

然后我们利用logistic函数把 $n e t_{h 1}$ 挤压到 $h_{1}$ 的输出：
这里写图片描述

对 $h_{2}$ 进行相同的操作：
$o u t_{h 2} = 0.596884378$

对输出层神经元重复操作，使用隐含层神经元的输出作为输出层神经元的输入。

这是 $o_{1}$ 的输出：
这里写图片描述

对 $o_{2}$ 进行相同操作：
$o u t_{o 2} = 0.772928465$

计算整体误差

利用平方和误差，我们能计算每个输出层神经元的误差：
这里写图片描述

例如，目标输出 $o_{1}$ 是0.01，但是神经网络输出是0.75136507，因此误差是：
这里写图片描述

对 $o_{2}$ 重复这个过程：
$E_{o 2} = 0.023560026$

神经网络整体误差：
这里写图片描述

反向传播

反向传播的目的是更新网络中每个权重，以便他们真实的输出值是接近目标输出，从而最小化输出层神经元的误差。

输出层

考虑 $w_{5}$ ，我们想要知道 $w_{5}$ 怎样影响整体误差，即 $\frac{α E_{t o t a l}}{α w_{5}}$

应用链式规则：
这里写图片描述

可视化我们正在做的：
这里写图片描述

我们需要理解这个公式的每一步。

首先，output怎样改变整体误差？
这里写图片描述

下一步，net input怎样改变 $o_{1}$ 输出？
logistic函数的偏导数是输出乘以1减输出：
这里写图片描述

最后， $w_{5}$ 怎样改变 $o_{1}$ 的net input？
这里写图片描述

把它们结合起来：
这里写图片描述

你常常能看到delta rule的结合形式：
这里写图片描述
我们利用 $\frac{α E_{t o t a l}}{α o u t_{o 1}}$ 和 $\frac{α o u t_{o 1}}{α n e t_{o 1}}$ 来重写 $\frac{α E_{t o t a l}}{α n e t_{o 1}}$ ，我们使用这个重新上面的表达式：

因此：
这里写图片描述

为了减少误差，我们从当前权重减去这个值(乘以一个学习率，设置成0.5)：
这里写图片描述

我们能重复这个过程得到新的权重 $w_{6}$ ， $w_{7}$ 和 $w_{8}$ ：
这里写图片描述

当我们继续下面的反向传输算法时，我们使用初始权重，而不是更新过的权重。

隐含层

下一步，我们将继续向后计算 $w_{1}$ ， $w_{2}$ ， $w_{3}$ 和 $w_{4}$ 新值，这是我们需要理解的：
这里写图片描述

可视化：
这里写图片描述

我们将要对隐含层神经元使用相似的过程，但是稍微不同的是，每个隐含层神经元的输出贡献到多个输出层神经元中。我们知道 $o u t_{h 1}$ 影响 $o u t_{o 1}$ 和 $o u t_{o 2}$ ，因此 $\frac{α E_{t o t a l}}{α o u t_{h 1}}$ 需要考虑两个输出层神经元的影响：

$\frac{α E_{t o t a l}}{α o u t_{h 1}} = \frac{α E_{o 1}}{α o u t_{h 1}} + \frac{α E_{o 2}}{α o u t_{h 1}}$

先计算 $\frac{α E_{o 1}}{α o u t_{h 1}}$ :

$\frac{α E_{o 1}}{α o u t_{h 1}} = \frac{α E_{o 1}}{α n e t_{o 1}} * \frac{α n e t_{o 1}}{α o u t_{h 1}}$

使用稍早前计算的值来计算 $\frac{α E_{o 1}}{α n e t_{o 1}}$ ：

$\frac{α E_{o 1}}{α n e t_{o 1}} = \frac{α E_{o 1}}{α o u t_{o 1}} * \frac{α o u t_{o 1}}{α n e t_{o 1}} = 0.74136507 * 0.186815602$

$\frac{α n e t_{o 1}}{α o u t_{h 1}}$ 等于 $w_{5}$ :

$n e t_{o 1} = w_{5} * o u t_{h 1} + w_{6} * o u t_{h 2} + b_{2} * 1$

$\frac{α n e t_{o 1}}{α o u t_{h 1}} = w_{5} = 0.40$

合在一起：
$\frac{α E_{o 1}}{α o u t_{h 1}} = \frac{α E_{o 1}}{α n e t_{o 1}} * \frac{α n e t_{o 1}}{α o u t_{h 1}} = 0.138498562 * 0.40 = 0.055399425$

对 $\frac{α E_{o 2}}{α o u t_{o 1}}$ 做相同的处理：

$\frac{α E_{o 2}}{α o u t_{h 1}} = - 0.019049119$

因此：

这里写图片描述

现在我们有 $\frac{α E_{t o t a l}}{α o u t_{h 1}}$ ，我们还需要计算 $\frac{α o u t_{h 1}}{α n e t_{h 1}}$ ，然后对每个权重计算 $\frac{α n e t_{h 1}}{α w}$ ：

这里写图片描述

我们计算 $h_{1}$ 对 $w_{1}$ 的偏导数：

这里写图片描述

把它们结合起来：
这里写图片描述

你也可以如下写：

这里写图片描述

现在我们能更新 $w_{1}$ ：

这里写图片描述

对 $w_{2}$ ， $w_{3}$ 和 $w_{4}$ 重复上面过程：

这里写图片描述

最后，我们更新所有权重，当我们把输入0.05和0.1向前反馈，神经网络的误差为0.298371109，在一次反向传播后，整体误差降到0.291027924，它看似不多，但是重复10000次之后，误差大幅下降到0.000035085，在这之后，我们把输入0.05和0.1向前反馈，那么输出的2个神经元生成0.015912196(vs 目标0.01)和0.984065734(vs 目标0.99)。

原文链接：A Step by Step Backpropagation Example

转https://blog.csdn.net/shaomingliang499/article/details/50587300