NLP历史发展——从语法规则到统计（二）

　　自然语言处理在20世纪50年代就开始有人研究，然后真正有着较大的进步是在20世纪70年代引入统计之后了。很多人都听说过图灵测试（去年有部电影《模仿游戏》是说图灵的），计算机最高奖项就是图灵奖，简单地说，你和机器进行对话时，无法判断这个是机器还是人类，就说明这个机器的智能的了。

　　如果你想让计算机来分词，你觉得计算机应该具备什么能力或者说如何才能做到？又或者说你想让一个上幼儿园或者小学的孩子来分词，他/她应该具体什么能力？

　　要想让一个小孩或者一台计算机分好词，必须让他/她/它理解自然语言，这是我们的直觉。我们在教育一个孩子时，是从一个句子的语法结构，加上词性来理解一个句子，经过阅读大量的作品，孩子自然就掌握了如何去分词断句。至于孩子是怎么掌握的，这个问题你去问上帝吧，毕竟这个孩子是他制造的。

　　那我们要让机器掌握分词，是不是也可以参照这样的方法呢？是的，人类一开始处理自然语言就是从这个角度出发的。首先我们要制作字典，把所有的字词录进来，然后我们要整理所有的语法，并把语法抽象成计算机语言。

　　假设S时代只存在“主谓宾”这种语法，如“我做错哪里了”，到了S+1时代出现了“主宾谓”，也即动宾倒置的句子，“我哪儿做错了”。后面你就要加上“主宾谓这条语法。糟糕的是，后面加的语法可能是和前面的冲突的。假设“主宾谓”是和前面的“主谓宾”冲突的，那为了处理冲突，我们就只能去掉“主宾谓”的句子，或者限定这种句式只能在某种特定的条件下出现。我们不妨把这些看作是病句，《数学之美》中说到，有人尝试将莎士比亚作品的所谓病句修改成正常的句子，结果只有病句流传下来了，那些治愈的句子却没有活下来。

　　不得不说，很多经典的中外作品都存在大量自相矛盾的句式，而在计算或非黑即白（0或1）的逻辑下，是无法处理的。另一方面，可以说这些“病句”恰恰体现了语言之美，比如“只可意会，不可言传”。

　　在20多年的自然语言处理中（20世纪50年代到20世纪70年代），进展是非常不理想的。统计学刚开始是用来处理语音识别的，后面便扩展词性标注，分词等应用上来。

　　“贾里尼克的出发点很简单：一个句子是否合理，就看看它的可能性大小如何”，就这样统计论便应用到自然语言处理了。”

　　上面的过程其实也是理性主义和经验主义在自然语言上的争论的过程。理性主义认为，所有的句子都是符合文法的，只要我们总结了所有的文法规则，就可以判断一个句子是不是正确的句子，也可以产生一个正确的句子。经验主义认为，一个句子是不是合理的，就看它出现的概率如何，而不管是否符合语法。事实证明，在自然语言处理上，经验主义比理论主义的效果要好得多。

积累，沉淀