003-神经网络基础-最优化，前向传播，反向传播

003-神经网络基础-最优化，前向传播，反向传播

最优化：

包括前向传播和反向传播

前向传播：

由w和x到损失函数loss的过程叫做前向传播

反向传播：

根据梯度下降的概念，找到最优的w的过程叫做反向传播。

做一件什么事情呢？

根据前向传播的w得到的loss，将loss反馈给上一次前向传播的w进行比较两次的w，看看哪个w使得loss小，那么就用小loss的w。

然后就一直去更新w。就叫做反向传播。

也就相当于回归算法中的参数更新，回归更新的是θ，这里更新的是w，其实都是一样的东西，名字不同而已。

举个例子：

要算x，y，z分别对函数f做了多少贡献，也就是说有多少权重

这里存在一个链式法则，也就是说，z对f的权重是3

x对f的权重是-4×1=-4

y对f的权重是-4×1=-4

就像下图所示的链式法则，x，y对在L中的权重，分别是L→z→x，和L→z→y两条链所决定的。

再深入一点：

红色代表梯度，绿色代表数值

例如最后1.37的1/x函数

梯度是

那么这一步的权重就是-1/（0.37*0.37） = 0.53

导数第二步，x+1求导后就是1，所以梯度是1，链式法则求出x+1的权重是1×（-0.53） = -0.53

再看红框里的，假设红框里的韩式是q

那么w0的权根据链式法则就是

与q的偏导相乘

就是-1×0.2=-0.2

将sigmoid函数合起来之后：

这种做法可以简化流程，如果不是sigmoid函数，而是一个非常负责的函数，可以对整体进行求导而简化流程。

又有一个问题：

链式法则中间的圈圈是干什么的？

这些圈圈叫做门单元。

门单元：

加法门单元：均等分配，导数相同，x+y对x求导是1，对y求导是1

MAX门单元：给最大的，w，z求max操作，最终的结果是z，所以梯度只跟z有关系。

乘法门单元：互换的感觉，导数互换，xy对x的导数是y，xy对y的导数是x

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Mjerry/p/9788150.html