反向传播_七月算法5月深度学习班第3次课程笔记

	desc
梯度与斜率区别	斜率是数值没有方向，核心表示的是速率梯度有方向的，核心想要表示的是某一个方向梯度并不是简单的 y 对于每一个维度上的偏导的拼接组合，即： grad(f) = (df/dx·i, df/dy·j, df/dz·k) 其中后面缀的一定是 i j k 这三个基就可以了因为具体的方向问题，由于前面的df/dx，df/dy，df/dz 三个数值决定的
为什么梯度方向是函数增加最快的方法	先建立一个概念：方向导数方向导数的属性：是一个标量，即标量函数 —> 标量的方向导数含义：函数沿着这个方向的增长率定义式：推导式：（第一处等价变换）这两个式子是等价的确切的说，因为方向导数的定义式可以拆成这个框架，所以才会定义出 df/dx·i, df/dy·j, df/dz·k 是梯度然后再进一步等价操作发现： fx(x0, y0) · cosα + fy(x0, y0) · cosβ = (fx(x0, y0), fy(x0, y0)) · (cosα, cosβ) （第二处等价变换）相当于是两个向量的点积这里的 fx(x0, y0), fy(x0, y0) cosα, cosβ 都是相对于原点的方向，引入基向量 i j，表示为： = (fx(x0, y0)i, fy(x0, y0)j ) · (cosαi , cosβj ) 再对上面的式子再做进一步的等价操作发现： \|\| fx(x0, y0)i, fy(x0, y0)j \|\| · \|\|cosαi , cosβj\|\| · cosΘ （第三处等价变换）其中 Θ是方向 l 与 (fx(x0, y0)i, fy(x0, y0)j) 的夹角，其中对于 (fx(x0, y0)i, fy(x0, y0)j )而言，其前面的系数决定其具体方向夹角为0，至最大，即方向导数最大从点积的角度：如果 fx(x0, y0) 为负数，那么 cosα 也要为负数如果 fy(x0, y0) 为负数，那么 cosβ 也要为负数这样点积之后值一定是大于等于 0 的真因为是有这个平方的关系，导致了梯度方向的方向导数一定是正数因为梯度方向的方向导数是 A^2 + B^2 的关系 summary： · 从梯度的定义式到梯度的推导式发现，如果选一个方向与 (fx(x0, y0)i, fy(x0, y0)j ) 方向一致，那么，此时的方向导数（标量）为正数，且是最大的 · 为正数，代表了函数增加，由 A^2 决定（这个地方解释了为什么此时的方向导数一定是正数） · 为最大，由 Θ=0 决定，从 \|\|A\|\|·\|\|B\|\|·cosΘ 的角度去思考的注意，i j 确实代表了坐标轴的方向，但是 (fx(x0, y0)i, fy(x0,y0)j) 由于α 和 β值的不同，得到一个不同的方向所以，才要求 cosα, cosβ 在数值上与fx(x0,y0 ), fy(x0,y0) 成比例，这是方向一致的数学等价表达【观点】要求某方向与梯度方向一致，等价于要求 cosα, cosβ 在数值上与 fx(x0,y0 ), fy(x0,y0) 成比例此时的结论： grad(f) = fx'·i + fy'·j，这个值的属性表示的是一个方向，i j 仅仅是基，方向由 fx' 和 fy' 决定，沿这个方向，方向导数值大于零且最大 refer 同济高数，第九章第七节
梯度的分类：	数值梯度和解析梯度解析梯度即用数学求导的方法求得数值梯度用数值方法计算：两点法逼近，即 f(x+σ) - f(x)/ σ 此时直接用一个很小的值就可以计算了，而省去了 lim 的极限操作
如何用两点法求数值 # 不仅仅是数值偏导更是数值梯度	数值梯度直接利用的定义公式，不需要知道函数定义，直接用两个点算就可以了这里的代码， x 是一维度的。所以这个 while 循环和 iter 迭代化，用最 naive 的方法替代就是： for i in xrange(len(x)): 每次操作 x[i] 就可以了
数学优化与机器学习中优化的对应关系	数学中的优化问题是 y =f(x1, x2) 的形式来优化机器学习中的优化问题： cost = f(w1, w2) 即：目标值是 cost，而不是 pred值自变量是 w，而不是input_data_x1, input_data_x2 找好这个对应关系就好理解了容易产生迷惑的点就是：机器学习中往往把 input 表示为 x，以至于你误以为要对 x求导，其实不是啊，是对参数w 求导这里的 x 是常量，是参数，不是变量，变量是 w 机器学习中，比如神经网络的最终值，其实就是 cost值，或者是似然值，已经是你待优化的值了，对于 \|\|y-cost\|\|2 就可以当成网络中的一个节点操作。所以网络的输出就是待优化函数，就像这个图表示的就是单纯的要优化 sigmoid 函数一样
本节课	推导了神经网络的的BP 过程给出了一个在图形上形式化的链式法则的过程
反向传播	1. 本质就是一个链式法则 2. 所谓的残差传递，是因为目标函数就是误差值，所以导数被称为残差 3. 在链式求导过程中，前面乘的那些导数叫做反向系数 4. 反正从 pred 到 cost，就是多了一 node 节点而已
符号说明	⊙是一般是指同或在论文里面可能是 element-wise 乘法
引入指示函数的作用	可以给分段函数得到解析导数
与导数相关的矩阵	一阶梯度是 vector 二阶梯度是 Hessian 矩阵雅克比矩阵，是从 m 维到 n维度的映射所以才有：m*n 的矩阵
关于caffe	其实caffe不需要做什么编码工作，用起来比较简单，当然，我指的是图像。
docker 在 DL中的应用	caffe， Torch同样也可以使用Docker的镜像来安装到容器里作用：免去搭建环境的烦恼所以李勇说安装caffe 一个星期的配置时间，其实可以用 docker 来做
倒三角的微分算子表示	input 标量， output 矢量视它为一个函数，一个指定的操作过程而方向导数就是它的输出的各个维度上的加和，对应乘方向夹角
你自己可以写一个深度学习的框架	现在的你可以自己实现这个过程了 2016/5/21 星期六 22:44 只要解决了这个求导的过程第一种是：数值梯度第二种是：层层导数