Assignment 3

Image Captioning with Vanilla RNNs

* jordn rnn is better than elman rnn ! why ？ just look at their struture！

* lstm 是一种网络，还是网络中的 cell ？

* vanilla rnn 的梯度计算方法比较特殊～，采用的是把时间序列中的梯度全部相加的方法（这样来看 ml 中的数学计算并不严谨。rnn 为了防止梯度爆炸都能 clip ！）

* 日狗了， tanh 的函数的导数公式在 cs231n 课件上有～，亏我搞的那么辛苦！

* rnn backward 为什么要那么算？

* 学会了用 matrix 做为 indx ！

* LSTM 都有 n 个变种

Q2.1 LSTM 结构图

Q2.2 ： LSTM 结构图 2

* 懒的去写 lstm_step_backward，烦！

* 梯度方向全靠猜，不是正就是负。梯度方向没有写错，只是场合不同。有的例子是用来欺骗算法的，有的例子是生成和真实更近似的图片。所以处理梯度的方式不同！

* 为什么矩阵的 size 是那个样子，完全没看懂！

* 没有看论文，完全是手动开撸～

* 磕磕巴巴地做完本练习

j_inc_loss = torch.sum((img[:,:,:,1:] - img[:,:,:,:-1])**2)
i_inc_loss = torch.sum((img[:,:,1:,:] - img[:,:,:-1,:])**2) 这段代码有点靓！

1. 江湖趣谈：在 09 年时后，只有 word2vector 作者写的 rnn 能收敛！他采用 clip 操作来限制爆炸的梯度

2. 趣谈： dynet 的作者是个 “一言不合就造轮子的人！”