第四周：卷积神经网络Part3

视频学习：循环神经网络

总损失为每一时刻的损失和；

LSTM 有三个门（遗忘门，输入门，输出门），来保护和控制细胞状态；
- 遗忘门：决定丢弃信息；
- 输入门：确定需要更新的信息；
- 输出门：输出信息；
RNN 与 LSTM 的不同：
- 处理方式不同（RNN：tanh；LSTM：求和）；
- RNN 的“记忆”在每个时间点都会被新的输入覆盖，但 LSTM 中“记忆”是与新的输入相加；
- LSTM：如果前边的输入对 Ct 产生了影响，那这个影响会一直存在，除非遗忘门的权重为0；
小结：
- LSTM实现了三个门计算：遗忘门，输入门，输出门；
- LSTM的一个初始化技巧就是将输入门的 bias 置为正数（1或5）这样模型刚开始训练时 forget gate 的值接近于 1 ，不会发生梯度消失；
- LSTM 运算复杂 -> 解决：GRU；
GRU：Gated Recurrent Unit

差异:
- GRU 只有两个门，分别为重置门和更新门；
- 混合了细胞状态和隐藏状态；
- 重置门：控制忽略前一时刻的状态信息的程度，重置门越小说明忽略的越多；
- 更新门：控制前一时刻的状态信息被带入到当前状态的程度，更新门值越大表示前一时刻的状态信息带入越多；
相似：
- 从t-1到t的时刻的记忆的更新都引入加法；
- 可以防止梯度消失；