深度学习重要里程碑算法和事件

杰弗里·辛顿(Geoffrey Hinton)
深度学习三巨头之一，2018年的图灵奖获得者

一直是致力于使用人工神经网络让计算机去模拟人类大脑存储和思考。

1986年，在《自然》杂志上发表了论文《通过误差反向传播算法的学习表示》（“Learning Representations by Back-propagating Errors”），论证了“误差反向传播”（Back-Propagating Errors）算法是切实可操作的训练多层神经网络的方法，终于令学术界的普遍认可多层神经网络也是可以有效训练的，神经网络并不是没有前途的“炼金术”。

1997-2017这个时间段，人们发现多层感知器有可能解决问题，之后沿着深度方向发展。
深度神经网络训练中遇到了一些问题，有：过拟合、梯度消失/爆炸、采样不准确、自动特征提取、长距离依赖等等。有数据集提出，还有测试结果的衡量指标。
理论应用到了语音识别、图像识别、自然语言

1997，RNN；LSTM；IBM深蓝
1998，LeCun；Reinforcement Learning
1999，EM；n-gram
2000，神经自回归网络
2001，异步随机梯度下降；神经语言模型；
2002，线性分类器，机器学习；
2003，
2004，Nesterov 加速梯度算法
2005，语音识别；GPU
2006，深度信念网络；
2007，基于 RBM 的无向概率模型；潜变量；最近邻分类器
2008，稀疏自编码器
2009，深度玻尔兹曼机；
2010，理解深度前馈神经网络训练的难点；
2011
2012，ImageNet；AlexNet；LeNet
2013，变分自编码器；动量；word2vec；GloVe；Speech recognition with deep recurrent neural networks
2014，生成式对抗网络；Adam；ReLU用起来；attention；cifar-10；deep belief networks用起来；Dropout；深度信念网络用起来
2015，指针网络；GRU；针对图像识别的深度残差学习；GoogleNet；Inception-ResNet；VGG；Batch正则化
2016，AlphaGo；Layer normalization
2017，Transformer，强化学习；Facebook的ConvS2S；
2018，BERT；ELMo；GPT系列；Transformer-XL；XLNet
2019，(deep) double descent；RoBERTa；ERNIE系列；Transformer XL；MeanSum
2020，CPM（Chinese Pre-trained Language Model）系列；MacBERT；Big Bird；BART；PEGASUS；T5
2021，openai的dall-e；CLIP；ChineseBERT；CPT（Chinese Pre-trained Unbalanced Transformer）；SimCLS

卷积模型，这种方法大约在 2007 到 2013 年间流行，当时标记的数据集很小，并且计算能力有限。

深度学习的复兴始于 2006 年，源于发现这种贪心学习过程能够为多层联合训练过程找到一个好的初始值，甚至可以成功训练全连接的结构 (Hinton et al., 2006b; Hinton and Salakhutdinov, 2006; Hinton, 2006; Bengio et al., 2007d; Ranzato et al., 2007a)。
截至 2016 年，一个粗略的经验法则是，监督深度学习算法在每类给定约 5000 个标注样本情况下一般将达到可以接受的性能，当至少有 1000 万个标注样本的数据集用于训练时，它将达到或超过人类表现。

从 20 世纪 80 年代直到约 2009-2012 年，最先进的语音识别系统是隐马尔可夫模型(Hidden Markov Model, HMM)和高斯混合模型(Gaussian Mixture Model, GMM)的结合。
深度网络在行人检测和图像分割中也取得了引人注目的成功 (Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013)，并且在交通标志分类上取得了超越人类的表现 (Ciresan et al., 2012)。

2006，深度信念网络；
2009，深度玻尔兹曼机；
2013，变分自编码器；
2014，生成式对抗网络；