语音识别六十年

　　　　语音识别的研究起源可以追溯到上世纪 50 年代，AT&T贝尔实验室的 Audry 系统率先实现了十个英文数字识别。

　　从上世纪 60 年代开始，CMU 的 Reddy 开始进行连续语音识别的开创性工作。但是这期间进展缓慢，以至于贝尔实验室的约翰·皮尔斯（John Pierce）认为语音识别是几乎不可能实现的事情。

　　上世纪 70 年代，计算机性能的提升，以及模式识别基础研究的发展，促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的 PC 端孤立词识别系统。

　　上世纪 80 年代是语音识别快速发展的时期，引入了隐马尔科夫模型（HMM）。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。

　　上世纪 90 年代是语音识别基本成熟的时期，但是识别效果离实用化还相差甚远，语音识别的研究陷入了瓶颈。

　　关键突破起始于 2006 年。这一年辛顿（Hinton）提出深度置信网络（DBN），促使了深度神经网络（Deep Neural Network，DNN）研究的复苏，掀起了深度学习的热潮。

　　2009 年，辛顿以及他的学生默罕默德（D. Mohamed）将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库 TIMIT 上获得成功。

　　2011 年，微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章，在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。

　　2017 年 3 月，IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破”。相对应的是去年 5 月的 6.9%。

　　2017 年 8 月，微软发布新的里程碑，通过改进微软语音识别系统中基于神经网络的听觉和语言模型，在去年基础上降低了大约 12% 的出错率，错词率为 5.1%。相对应的是去年 10 月的 5.9%，声称超过人类。

　　2017 年 12 月，谷歌发布全新端到端语音识别系统（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），错词率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

　　2018 年 6 月，阿里巴巴达摩院推出了新一代语音识别模型 DFSMN，将全球语音识别准确率纪录提高至 96.04%，错词率降低至 3.96%。

　　2018 年 10 月，云从科技发布全新 Pyramidal-FSMN 语音识别模型，错词率（Worderrorrate，WER）降低至 2.97%，较之前提升了 25%，将全球语音识别准确率纪录提高至 97.03%，超过受过严格训练的专业人类速记员。

　　　　从这些数据来看，语音识别的重大进展，也就是从2006年开始的，现在的在线体验算是不错了，接下来就是看看怎么把离线的体验做好，用到很多物联网设备上了。