深度学习---超参数调试

超参数搜索的策略　　

　　在深度学习中，超参数有很多，比如学习率α、使用momentum或Adam优化算法的参数（β1，β2，ε）、层数layers、不同层隐藏

单元数hidden units、学习率衰退、mini=batch的大小等。其中一些超参数比其他参数重要，其优先级可以分为以下几级，如图，红色

框最优先，橙色次之，紫色再次之，最后没有框住的一般直接取经验值。

1. 随机取值。　　

网格搜索的问题在于：无法预先判断哪个参数是比较重要的，因此将浪费大量的运算在没有明细作用的变量上。这里写图片描述

2. 精确搜索

为超参数选取合适的范围
　　对于如神经网络隐藏层数这类超参数可以采用平均取值，但是对于类似学习率和指数加权平均中的超参数 $β$

Batch normalization

　　Batch normalization归一化的作用在于它适用的归一化过程不只在输入层，同样适用于神经网络的深度隐藏层。采用Batch normalization归一化了一些隐藏层单元值的平均值和方差。
　　但是与输入层归一化不同，在隐藏单元中，一般不想设置0均值和单位方差，因为那样在激活函数中就只用到了线性部分，而没有充分的发挥激活单元的非线性作用。
　　一般把Batch normalization放在计算z和a之间，先对z进行BN处理，再通过激活函数。
　　Batch normalization 只能在mini-batch上计算均值和方差，因此在test时，需要一些细节操作。
这里写图片描述
整个forward计算过程：

Batch normalization的作用：
1. “Covariate shift”
　BN限制了在前面层的参数更新会影响数值分布的程度，BN归一化减少了输入值改变的问题，并使得值的变化在固定的范围，使得值的变化更加稳定；同时也使得各个层之间的学习变得相互独立，有助于加速整个网络的学习；
2. regularization效果
　　在结合mini-batch使用时，由 $z^{[L]}$