激活函数

激活函数

1. 什么是激活函数

在神经网络中，我们经常可以看到对于某一个隐藏层的节点，该节点的激活值计算一般分为两步：
（1）输入该节点的值为 $x_{1}, x_{2}$

$x_{1}, x_{2}$

$x_{1}, x_{2}$

2. 常用的激活函数

在深度学习中，常用的激活函数主要有：sigmoid函数，tanh函数，ReLU函数。下面我们将一一介绍。

2.1 sigmoid函数

在逻辑回归中我们介绍过sigmoid函数，该函数是将取值为 $(- \infty, + \infty)$

对于sigmoid函数的求导推导为：

sigmoid函数作为非线性激活函数，但是其并不被经常使用，它具有以下几个缺点：

（1）当 $z$

$z$

　　　　　　对于隐藏层第一个节点进行计算，假设该点实际值为 $a$

J^{[1]} (W) = \frac{1}{2} (a^{[1]} - a)^{2}

　　　　　　而激活值

a^{[1]}

a^{[1]}

a^{[1]}

a^{[1]}

\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}

\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}

\frac{Δ J^{[1]} (W)}{Δ w_{11}} = (a^{[1]} - a) \cdot (a^{[1]})^{'} = (a^{[1]} - a) \cdot g^{'} (z^{[1]}) \cdot x_{1}

a^{[1]}

a^{[1]}

2.2 tanh函数

tanh函数相较于sigmoid函数要常见一些，该函数是将取值为 $(- \infty, + \infty)$ 　　

tanh函数在 $0$

tanh函数的缺点同sigmoid函数的第一个缺点一样，当 $z$

2.3 ReLU函数

ReLU函数又称为修正线性单元（Rectified Linear Unit），是一种分段线性函数，其弥补了sigmoid函数以及tanh函数的梯度消失问题。ReLU函数的公式以及图形如下：

对于ReLU函数的求导为：　　　　　　　　

ReLU函数的优点：

a^{[1]}

2.4 Leaky ReLU函数

这是一种对ReLU函数改进的函数，又称为PReLU函数，但其并不常用。其公式与图形如下：　　

其中 $a$ 　　　　　　　　　　

Leaky ReLU函数解决了ReLU函数在输入为负的情况下产生的梯度消失问题。

3. 为什么要用非线性激活函数？

我们以这样一个例子进行理解。
假设下图中的隐藏层使用的为线性激活函数（恒等激活函数），也就是说 $g (z) = z$

于是我们可以得出：

a^{[1]}

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/feiyumo/p/9952005.html