一. 深度学习的过去和现在

第一次浪潮：控制论

出现了感知机、自适应单元(ADALINE)等简单线性模型(linear model)。
随机梯度下降(stochastic gradient descent)的一种特例出现，之后经过稍加改进的随机梯度下降算法仍然是当今深度学习的主要训练算法。
线性模型有很多局限性。最著名的是，它们无法学习异或(XOR)函数，即 f([0,1],w) = 1 和 f([1,0],w) = 1，但 f([1,1],w) = 0 和 f([0,0],w) = 0。因为这些局限性导致了神经网络热潮的退潮。
神经科学被视为深度学习研究的一个重要灵感来源，但它已不再是该领域的主要指导。比如，神经科学已经给了我们依靠单一深度学习算法解决许多不同任务的理由。神经学家们发现，如果将雪貂的大脑重新连接，使视觉信号传送到听觉区域，它们可以学会用大脑的听觉处理区域去 ‘‘看”。

第二次浪潮：联结主义

联结主义的中心思想是，当网络将大量简单的计算单元连接在一起时可以实现智能行为。

重要概念：

分布式表示(distributed representation)(Hinton et al., 1986)。其思想是：系统的每一个输入都应该由多个特征表示，并且每一个特征都应该参与到多个可能输入的表示；
反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及；
LSTM 网络用于序列建模。

第三次浪潮：深度学习

近年来，得益于更强大的计算能力、更大的数据集和能够训练更深网络的技术，深度学习的普及性和实用性都有了极大的发展。
第三次浪潮已开始着眼于新的无监督学习技术和深度模型在小数据集的泛化能力，但目前更多的兴趣点仍是比较传统的监督学习算法和深度模型充分利用大型标注数据集的能力。

二. 机器学习、深度学习、表示学习

机器学习算法的性能在很大程度上依赖于给定数据的表示(representation)。表示的选择会对机器学习算法的性能产生巨大的影响。所以机器学习的难点在于表示的选择，解决这个问题的途径之一是使用机器学习来发掘表示本身，而不仅仅把表示映射到输出。这种方法我们称之为表示学习(representation learning)。在传统的机器学习中，也有很多有关特征学习的方法，比如主成分分析、线性判别分析、独立成分分析等。但特征的学习是和最终预测模型的学习分开进行的，因此学习到的特征不一定可以提升最终模型的性能。

浅层学习学习的只是x到y的映射；深度学习是一种端到端的学习：表示学习+浅层学习；深度学习可以自动学习表示，并学习x到y的映射。它要解决的问题只是贡献度分配问题，而神经网络恰好是解决这个问题的有效模型。深度学习其实更接近于表示学习，除了最后一层深度学习的所有层都是表示学习的范畴，整个网络可以看作一个特征提取器，将简单的特征表示层层提取变成更高层更复杂的表示，最后加上一层sigmoid、softmax层就是深度学习。

深度学习(deep learning)通过其他较简单的表示来表达复杂表示，解决了表示学习中的核心问题。