CS231n 2016 通关第六章 Training NN Part2

CS231n 2016 通关第六章 Training NN Part2

本章节讲解参数更新 dropout

=========================================================================================

上节内容回顾与总结：

　　模型过程：

　　激活函数：注意理解各个函数的优缺点

　　数据预处理：

　权重参数初始化：Xavier方法，使用较多。

　　batch normalization ：

　　

　　cross validation ：比较loss 结果，选择合适学习率

=========================================================================================

　　本章知识点：

=========================================================================================

Parameter Update ：

　　训练NN的代码结构：

　　最后一行即为参数更新。

　　sgd的轨迹：　

　　因为minibatch的原因，在波动中收敛。

　　Momentum update

　　

　　加入了动量，加速收敛。

　　SGD vs Momentum

　　Momentum 直观解释：

　　Nesterov Momentum ：

　　更新公式比较：

　　AdaGrad update ：前两种是在更新方式上的算法，接着总结学习率更新的算法

　　　　自适应梯度，根据误差项来调整学习率。　　

　　显然，在误差较大时学习率低，当误差减小时，学习率升高。

　　RMSProp update ：

　　Adam update ：

　　

　　Learning rate ：

　　可以使用开始时较大的学习率，之后逐步衰减的方法。

　　第二种优化方法：

　　损失函数泰勒展开：　

　　　　这种方法，不需要超参数，学习率等。但是不实用，因为需要计算H^-1，即海森矩阵。其比较庞大。

　　拟牛顿法：

　　

　　实际应用：

=========================================================================================

model ensemble ：在测试的时候，使用多个模型，对结果做平均值。

　　

一些技巧：

=========================================================================================

Dropout :

　　示意图：

　　代码结构：

　　模型实例：

　　　　

　　测试阶段：没有dropout

　　在training 阶段做出一些调整：

　　修改后：

　　两种方式：

=========================================================================================

CNN 发展过程

　　　　

　　视觉系统是由简单结构到复杂结构，信号的抽象过程。

　　

　　拟生视觉网络。

　　现阶段：分类、复原、识别应用广。

　　

　　

　　

附：通关CS231n企鹅群：578975100 validation：DL-CS231n

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/wangxiu/p/5691368.html