激活函数

一、什么是激活函数

所谓激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

　　激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。那么激活函数应该具有什么样的性质呢？

　　可微性：当优化方法是基于梯度的时候，这个性质是必须的。
　　单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
　　输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况少，一般需要更小的learning rate。

二、激活函数的作用

　　在生物的神经传导中，神经元接受多个神经的输入电位，当电位超过一定值时，该神经元激活，输出一个变换后的神经电位值。而在神经网络的设计中引入了这一概念，来增强神经网络的非线性能力，更好的模拟自然界。所以激活函数的主要目的是为了引入非线性能力，即输出不是输入的线性组合。

　　假设下图中的隐藏层使用的为线性激活函数（恒等激活函数：a=g(z)），可以看出，当激活函数为线性激活函数时，输出

三、常见激活函数

1、sigmoid函数

　　能将输入值映射到0-1范围内，目前很少用作隐藏层的激活函数，用在二分类中预测最后层输出概率值。函数特点如下

　　优点

它能够把输入的连续实值变换为0和1之间的输出，适合做概率值的处理。
- 如果是非常大的负数，那么输出就是0
- 如果是非常大的正数，输出就是1

　　缺点

　　1、梯度消失

　　　　我们从上图可以看出，当x较大或者较小时，sigmoid输出趋近0或1，导数接近0，而后向传递的数学依据是微积分求导的链式法则，当前层的导数需要之前各层导数的乘积，几个小数的相乘，结果会很接近0。Sigmoid导数的最大值是0.25，这意味着导数在每一层至少会被压缩为原来的1/4，通过两层后被变为1/16，…，通过10层后为1/1048576。这种情况就是梯度消失。梯度一旦消失，参数不能沿着loss降低的方向优化，

　　2、不是以零为中心

　　通过Sigmoid函数我们可以知道，Sigmoid的输出值恒大于0，输出不是0均值（既zero-centered），这会导致后一层的神经元将得到上一层输出的非0均值的输入。

　　举例来讲如果

2、 tanh函数

　　Tanh 激活函数又叫作双曲正切激活函数（hyperbolic tangent activation function）。与 Sigmoid 函数类似，但 Tanh 函数将其压缩至-1 到 1 的区间内，输出是zero-centered的（零为中心），在实践中，Tanh 函数的使用优先性高于 Sigmoid 函数。负数输入被当作负值，零输入值的映射接近零，正数输入被当作正值。