CS224n笔记13 卷积神经网络

本文转自：http://www.hankcs.com/nlp/cs224n-convolutional-neural-networks.html

补充了NLP中相对冷门的CNN，谈了谈调参与发论文的潜规则。

从RNN到CNN

RNN无法利用未来的特征预测当前单词，就算是bi-RNN，也不过是双向重蹈覆辙而已。
经常把过多注意力放到最后一个单词上。

　　比如，如果只想得到my birth的向量，RNN就无能为力了，因为它捕捉的是从左到右的“上文”。

与此对应，softmax也是加在最后一个单词上的

　　CNN的解决思路说来也很简单粗暴，那就计算相邻的ngram，不管它到底是不是真正的短语，眉毛胡子一把抓地为它们计算向量。

什么是卷积

　　定义在两个矩阵上的函数，生成另一个矩阵（也许称作tensor会更好）。对一维矩阵（向量来讲），可以形式化地描述如下

这里 $2 M$

在计算机视觉中，卷积可以提取诸如物体边缘之类的特征。一个很棒的可视化：

更多入门知识参考《理解深度学习中的卷积》。

单层CNN

hankcs.com 2017-07-04 上午10.11.32.png

双通道词向量=>多个卷积核得到的feature map（红色是bigram，橙色是trigram）=>池化得到最终特征=>softmax分类输出。

dropout

试验结果

hankcs.com 2017-07-04 下午1.57.27.png

　　双通道不显著地带来了一点提升。这张对比表也暴露了深度学习学术界公开的“黑幕”，没有人把每个训练trick单独拎出来报告提升比；2014年之前几乎没人用Dropout，可最新发表的论文就是要跟它们比Dropout，却不愿把它们加入Dropout重新实现一遍（可能费时费力还不讨好吧，万一被baseline反杀不就完蛋啦）。事实上，这个结果只能说明Dropout比不Dropout有2-4%的提升，不能说明CNN多有效。