【deep learning学习笔记】最近读的几个ppt(未完...)

近年来Deep Learning越来越火,先是MS研究院在语音识别取得了突破,后来到国内,百度成立研究院。Deep Learning作为一种机器学习模型的突破,已经被迅速应用到各个领域。我赶时髦,看一些ppt,做做笔记。


《Learning Deep Architectures_Bengio_2009》

1. Bengio 是Deep Learning的领军人物之一了,这个ppt是对其经典论文“Learning Deep Architectures for AI”中内容的描述,共87页。

2. 在deep learning之前,与之有关系的有两种:(1)shallow learning,典型的例子是svm,这些可以看做是有一个隐含层的神经网络,deep learning与之的关键区别是有多个隐含层,而且不是“一般的”多,如,十层;(2)deep neural network,也是包含有多个隐含层的神经网络,不过是用典型的bp算法做训练的,而deep learning引入了pre-training,提升了训练效果。

3. deep learning的初衷

(1)和当初神经网络一样,仿生学基础

(2)维数灾难问题:当参数太多,没有足够的样本来学习这些参数。

         deep learning提供了另一种思路,参数不多,不过通过增加层数来提高网络结构的复杂度。而每提高一层,网络的描述能力就会指数及增加。

(3)高描述能力

4. deep learning在2006年取得突破,有三篇经典文章

(1)Hinton, Osindero & Teh «  A Fast Learning Algorithm for Deep Belief Nets  »,  Neural Computation , 2006

(2)Bengio, Lamblin, Popovici, Larochelle «  Greedy Layer-Wise Training of Deep Networks  »,  NIPS’2006 

(3)Ranzato, Poultney, Chopra, LeCun « Efficient Learning of Sparse Representations with an Energy-Based Model », NIPS’2006
5. Greedy Layer-Wise Pre-Training

前文说过,其实多层神经网络从前就有,只不过训练方法不当,模型一直没有取得比较好的效果;而相比之下deep learning只是加了pre-training,就效果大大提升。

pre-training是用RBM(Stacking Restricted Boltzmann Machines)做的。在每一对儿相邻层,都可以看做是一个RBM。RBM是无指导(unsuperwise)训练,所以可以从输入层开始,对上一层进行参数训练。当上一层参数训练好了之后,用这些参数,结合具体输入,继续向更上一层做参数训练。这就是stacking RBM的含义。而整个过程称为pre-training。最终训练出来的参数,作为模型参数的初始值,再用传统的bp方法对整个模型进行细调,从而形成最终的模型。

6. 接下来介绍了几个deep learning取得成功的例子

7. 介绍RBM的理论和训练方法

8. 讨论了一些问题

(1)如果没有最后的bp微调,模型会怎样——效果不好

(2)如果只有一个隐含层,效果怎样——也不好

(3)为什么pre-training之后,效果就好了:pre-training可以看做是对p(x)(先验知识)的一种逼近,而p(x)对预测p(y|x)是有很大帮助的。



《Tutorial on Deep Learning and Applications_Honglak_Bengio_2010》

1. 在“NIPS 2010 Workshop on Deep Learning and Unsupervised Feature Learning”上面的ppt。从作者顺序上看,Honglak是Bengio的学生。从ppt的内容上看,绝大部分内容与《Learning Deep Architectures_Bengio_2009》重复,不过思路更加清晰,更加中规中矩。

2. 反向传播算法在传统deep neural network中效果不好的原因

(1)bp算法根据错误沿着梯度方向进行修正参数,错误大小,随着层数的增加而迅速降低,对于网络深层的参数很难得到有效训练

(2)容易陷入局部最优解

(3)bp要求有监督训练,即需要标注语料,而现实中未标注的语料是最多的

3. deep network training

step1:unsuperwise learning, layerwise training, help the network initialize with good parameters

step2:superwise top-down training

4. Deep Boltzman Machines:这部分比上一个ppt讲得好点,可操作性强,上一个都是理论

5. DNN应用

(1)图像

(2)语音识别:用到了声学模型上

(3)自然语言处理,语言模型,以下两部分工作可以作为参考

Bengio et al. (2000, 2003): via Neural network

Mnih and Hinton (2007): via RBMs

除了语言模型,还用到了其他序列标注问题上,如:词性标注、组块分析、语义角色标注等



原文地址:https://www.cnblogs.com/dyllove98/p/3131095.html