LSTM、GRU、 BRNN、Hierarchical RNN

传统的RNN在训练long-term dependencies 的时候会遇到很多困难,最常见的便是vanish gradient problen。期间有很多种解决这个问题的方法被发表。大致可以分为两类:一类是以新的方法改善或者代替传统的SGD方法,如Bengio提出的clip gradient;另一种则是设计更加精密的recurrent unit,如LSTM,GRU。而本文的重点是比较LSTM,GRU的performance。由于在machine translation上这两种unit的performance已经得到验证(效果差别不明显,performance差别不大)

1) LSTM:

 

2)GRU:

这里写图片描述

3)LSTM

5)Hierarchical RNN

4)BRNN

原文地址:https://www.cnblogs.com/hozhangel/p/7987144.html