cs231n__4.1 Backpropagation and Neural Network

CS231n

4.1 Backpropagation

回顾：
两个损失函数：

优化的方法：

如何计算梯度：

用有限差分估计
直接计算偏导数（解析梯度）

今天，我们要学习如何计算任意复杂度的解析梯度
要用到一个叫做计算图的框架：
每一个节点代表着计算

上图是我们讲过的线性分类器

这里使用计算图的好处是：
一旦我们可以用计算图来表示一个函数，那就能用所谓的反向传播技术。递归地使用链式法则，计算图中每一个变量的梯度！

下面来介绍反向传播算法是如何工作的：

举一个实际例子：

首先我们要用计算图来表示出整个函数

这里用到了中间结点
然后，从后往前算梯度：（如图所示）

其中，因为用到了中间项，所以使用链式法则！
注：为什么在这里不直接算出来？因为这个例子很简单，在其他很复杂的例子后，很难直接算。
一旦表达是十分复杂，你绝不会想用微积分来算出来。
但如果你用这种方法，就可以把复杂的表达式分解成一些计算结点。然后就可以用基础运算就可以算出你想要的梯度值而不需要算出整个表达式。

现在，我们来分解看看反向传播到底在做什么：

主要工作就是：
在每一个节点上计算我们所需要的本地梯度，local gradient, 然后跟踪这个梯度。在反向传播的过程中，我们接受从上游传回来的这个梯度值，我们直接用这个梯度值乘以本地梯度，然后得到我们想要传回连接点的值。我们不考虑除了直接相连的结点之外的任务东西。

接下来我们来看一个更复杂的例子：

然后按照惯例，执行反向传播算法：

逐步前进：
用上游梯度值乘以本地梯度值
其中几个步骤：

我们额外来看看分支节点：

在这里我们要算2个分支！！！！

注明：当我们遇到加法运算的节点的时候，加法运算对每个输入的梯度，正好是 1
所以在这里，本地梯度是 1 乘以反向梯度 0.2
得到总的梯度是0.2

继续移动，接近终点了！

在这里对w0, 上游梯度是0.2 乘以 x的值(也就是本地梯度) —— -1
我们可以用相同的方法算出x0

这里，就已经完成了反向梯度计算了：
那么，为什么这样做会使计算更简单？
答：在这里可以看出，我们处理过的本地梯度的表达式要先写出来，我们要做的就是填充每一个值，然后使用链式法则，从后往前乘以这些值得到对所有变量的梯度。
值得提醒的一点是：我们可以将原表达式化为最简单的步骤，也可以化为稍微复杂点的步骤，反正殊途同归。

例如下图的蓝色方框可以合成为一个节点