自然语言处理

　　自然语言处理是人工智能的一大分支，本文简要介绍自然语言处理的基本内容，作为总结。

　　用自然语言与计算机通信，这是人们长期以来所向往的。这主要有两点好处，第一：人们不再需要学习各种计算机语言，直接使用自己平时所熟悉的语言就好了。第二：让人们更加深入的了解人类语言能力和智能的机制。实现这个既需要计算机能够理解人们表达的意思，又能够组织词汇进行表意输出从而完成对话。现在实用的自然语言处理的系统有：多种数据库和专家系统的自然语言的接口、各种机器翻译系统、全文检索系统、自动文摘系统等，但是这些系统所达到的效果距离人们所期望的“人机对话”距离还十分遥远，目前实现的都是些基本的功能。

　　实现人机之间的自然语言通信最核心的问题是：自然语言文本和对话的各个层次上存在各种各样的歧义性。歧义现象的存在使得消除他们需要大量知识与推理。更深层次上要求我们先弄明白：人类大脑是如何进行语言的模糊识别和逻辑判断。

　　自然语言处理基础理论：自动机、形式逻辑、统计机器学习、汉语语言学、形式语法理论

　　语言资源：语料库、词典

　　　　　　　　关键技术：汉子编码、词法分析、句法分析、语义分析、文本生成、语音识别

　　　　　　　　应用系统：文本分类和聚类、信息检索和过滤、信息抽取问答系统、拼音汉字转换系统、机器翻译、新信息检索等

　　争论：发展限制的解决办法有两个方向：1.语言学家倾向于创新基础理论 2.工程师倾向于由已有的方法的完善和优化

　　难点：1.单词的边界界定我们知道在口语中，字与字之间是没有刻意的停顿的，我们之所以明白意思是因为我们的大脑对听到的字进行了编排划分成最恰当最合适的组合。在书写上同样如此。

　　　　　2.词义的消除歧义同一个单词有不同的意思，我们需要选取单词最为通顺的解释

　　　　 3.句法的模糊性自然语言的文法通常是模棱两可的，针对一个句子的词语可以编排出不同的逻辑意义出来，我们必须根据前后文来确定最合适的意义。

　　　　 4.有瑕疵和不规范的输入遇到方言就呵呵了

　　　　 5.语言行为与计划这个主要是语义上的理解与未来的执行。比如说“你能帮我拿一本书嘛？” 直接拿一本书过去要比回答“能”好。就算回答“不能”或者“太远了我拿不到”都比回答“能”然后待着不动要好。再者，如果一门课程上一年没开设，对于提问“这门课程去年有多少学生没通过？”回答“去年没开这门课”要比回答“没人没通过”好。

　　总括性的介绍完之后，来细致的认识自然语言处理的技术里程碑。介绍这些之前我们先说一下两个基本的事实。事实一：短语结构语法（Phrase Structure Grammar 简称PSG）不能有效的描写自然语言。PSG在语言学理论中占有很重要的地位，但还是有根本性地缺点：主要表现为，它使用是像动词和短语那样的单一标记，因而不能有效的指明和解释自然语言中结构歧义的问题。比如说“打击盗版”是动词+名词->动词短语，但是“委托方式”是动词+名词->名词短语。有很多这样的歧义的地方，犹豫约束力不够，单一标记的PSG规则不能充分消解短语类型和短语边界的歧义。用数学语言来讲，就是PSG是必要的，但不是充分的。事实二：短语结构规则的覆盖有限。大规模语料调查发现：齐夫律：如果对某个语言单位进行统计，把这个语言单位在一个语料库里出现的频率记作F，而且根据频度的降序排列对每个单词指派一个整数的阶次R。结果发现R*F近似为一个常数，或者说被观察的语言单元的阶次R与其频度F成反比关系。在词频方面，几乎所有的语料(一本短篇小说或者是一部鸿鹄巨作)，最常出现的100个词的出现次数就会占到语料库总词次数的近一半。加大语料库规模，基本对统计结果无太大影响。

　　好了，说完了两个基本事实作为背景，接下来开始介绍三个里程碑意义的自然语言处理的东西。

　　第一个：复杂特征集

　　　　复杂特征集又叫做多重属性描写。现在几乎在所有的词汇层的描写均采用复杂特征集，并利用这些属性来强调句法规则的约束力。根据复杂特征集衍生出来的语法有广义短语结构语法、中心语驱动的短语结构语法、词汇功能语法等。这些语法都是在词汇和短语的复杂特征集描写背景下产生的。合一算法是针对复杂特征集的运算二提出来的。“合一”是实现属性匹配和赋值的一种算法，所以上述这些新语法又统称为“基于合一的语法”。

　　第二个：词汇主义

　　　　词汇主义的方法不仅提出了一种颗粒度更细的语言知识表示形式，而且体现了一种语言知识的递增式开发和积累的新思路。从本质上讲，词汇主义倾向反应了语言描写的主体已经从句法层转移到词汇层，配对的是“小语法、大词库”。比较有代表性的词汇主义有：词汇语法、框架语言学、WordNet、知网（How-Net）、MindNet等。

　　第三个：统计语言模型

　　　　如果用变量W代表一个文本中顺序排列的n个词，即W=w1w2...wn,则统计语言模型的任务是给出任意的一个词序列W在文本中出现的概率P(W).这样的统计计算可以简化为二元模型或者是三元模型。统计语言模型的方法的比较好的应用有语音识别、词性标注、介词短语PP的依附歧义。其中字词性标注中，二元模型的统计模型比起上下文相关的模型的正确率高出很多。基于统计语言模型方法，汉语和英语的词性标注正确率都可以达到96%左右。

　　总结。语言学家的努力，不论是复杂特征集还是合一语法，还是词汇主义的方法，都是在原先所谓的理性主义框架下作出的重大贡献。词汇主义的方法特别值得推崇，因为它不仅提出了颗粒度更细的语言知识表示形式，而且体现了一种语言知识的递增式开发和积累的新思路。尤其值得重视的是在众多词汇资源的开发过程中，语料库和统计学的方法发挥了很大的作用，这也是经验主义方法和理性主义方法相互融合的可喜开端。语料库和统计语言模型是当前自然语言处理技术的主流，它们的实用价值已在很多应用系统中得到证实。

参考阅读：[1]自然语言处理技术的三个里程碑微软亚洲研究院黄昌宁张小凤 2002.5

[2]http://baike.baidu.com/view/18784.htm 百度百科之自然语言处理