GRU and LSTM

门控循环单元（GRU）：

　　当时间步数较大或者时间步数较小的时候，循环神经网络的梯度较容易出现衰减或者爆炸。虽然裁剪梯度可以应对梯度爆炸，

但是无法解决梯度衰减的问题。正因为如此，循环神经网络在实际中难以捕捉时间序列中的时间步较大的依赖的关系。门控循环

神经网络的提出，真是为了更好地捕捉时间序列中时间步较大的依赖关系。它通过可以学习的门来控制信息的流动。

　　门控循环单元中的重置门和更新门的输入均为当前时间步输入 X_t与上一时间步的隐藏状态 H_t-1，输出由激活函数sigmoid函数

的全连接层计算得到。

　　假设隐藏单元的个数为 h ,给定时间步 t 的小批量输入，（样本数量为 n ，输入个数为 d ）和上一时间步的隐藏状态，

重置门和更新门的计算如下：

　　因为sigmiod函数可以将元素的值变换到0和1之间，因此重置门和更新门中的每个元素的值域都是【0,1】

　　门控循环单元将计算候选隐藏状态来辅助稍后的隐藏状态的计算。我们将当前时间步的重置门的输出与上一时间步的隐藏状态

做按元素乘法（符号为）。如果重置门中的元素值接近 0 ，则意味着重置对应隐藏状态元素为 0 ，即丢弃上一时间步的隐藏状态。

如果元素值接近1，那么表示保留上一时步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连接，在通过激活函数tanh的

全连接层计算出候选隐藏状态，其所有元素的值域都为【-1,1】

　　具体的来说，时间步 t 的候选状态的计算为：

　　从这个公式可以看出，重置门控制了上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态。而上一时间不的隐藏状态

可能包含了时间序列截止至上一时间步的全部历史信息。因此，重置门可以用来丢弃与预测无关的历史信息。

最后时间步 t 的隐藏状态的计算使用当前时间步的更新门Z_t来对上一时间步的隐藏状态 H_t-1和当前时间步的候选隐藏

状态做组合：

　　值得注意的是，更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新，假设更新门在时间步 t^‘到 t 之间一直近似 1

那么，在时间步 t^‘到 t 之间的输入信息几乎没有流入时间步 t 的隐藏状态 H_t 。实际上，这可以看作较早时刻的隐藏状态一直通过时间

并传递至当前时间步 t 。这个设计可以应对循环神经网络中的梯度衰减问题，并更好的捕捉时间序列中时间步距离较大的依赖关系。

1、重置门有助于捕捉时间序列里短期的依赖关系；

2、更新门有助于捕捉时间序列里长期的依赖关系。