循环神经网络

RNN

全连接网络处理图像的问题：

卷积神经网络的解决方式

基本应用：

循环神经网络和卷积神经网络的不同是什么？

RNN的基本结构

三块参数

展开

深度RNN（在深度上延伸）

双向RNN

小结：

$$ frac{delta L}{delta w} = 2(a-y) · a(1-a)·x $$

当循环神经网络在时间维度上非常深的时候，会导致梯度消失或梯度爆炸的问题。

梯度爆炸导致的问题：模型训练不稳定，梯度变为Nan（无效数字），Inf（无穷大）

梯度爆炸改进：

梯度消失导致的问题：长时依赖问题

随着时间间隔的不断增大，RNN会丧失学习到连接如此远的信息的能力

梯度消失改进：

LSTM有三个门（遗忘门，输入门，输出门），来保护和控制细胞状态

遗忘门：(f_t = sigma(W_f·[h_{t-1},x_t]+ b_f))
(sigma)为Sigmoid函数
输入门

[i_t = sigma(W_i·[h_{t-1},x_t]+ b_i)\ hat{C_t} = tanh(W_c·[h_{t-1},x_t]+b_C) ]
首先经过Sigmoid层决定什么信息需要更新，然后通过tanh层输出备选的需要更新的内容，然后加入到新的状态中

得到新的(C_t)：(C_t = f_t * C_{t-1} + i_t * hat{C_t})

输出门
[o_t = sigma(W_o·[h_{t-1},x_t]+ b_o)\ h_t = o_t * tanh(C_t) ]
通过sigmoid来确定细胞状态的哪个部分将输出出去，然后将细胞状态通过tanh进行处理并将它和sigmoid门的输出相乘，最终仅仅会输出我们确定输出的那部分

小结：

普通RNN都是隐层从前一个时间步连接到当前时间步。而CW-RNN把隐层分成很多组，每组有不同的循环周期，有的周期是1，有的更长，这样一来，距离较远的某个依赖关系就可以通过周期较长的cell少数几次循环访问到，从而网络层数不太深，更容易学到。

什么是attention？

是受到人类注意力机制的启发，人们在进行观察图像的时候，不是一次就把整幅图像的每个位置像素都看过，大多是根据需求将注意力集中到图像的特定部分。而人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。