NLP基础

1、什么是NLP

NLP(Natural Language Processing,自然语言处理)是计算机科学以及人工智能领域的重要的一个研究方向，它研究用计算机处理，理解，运用人类语言，达到人与计算机进行有效的通讯。

所谓“自然”乃是寓意自然进化形成，是为了和人造语言进行区别，类似C++，Java等人为设计的语言。

●音系学:指代语言中发音的系统化组织。●词态学:研究单词构成以及相互之间的关系。●句法学:给定文本的哪部分是语法正确的。●语义学:给定文本的含义是什么?●语用学:文本的目的是什么?

2、 NLP的研究任务

NLP可以被应用于很多领域，这里大概总结出以下几种通用的应用:

●机器翻译:计算机具备将一种语言翻译成另一种语言的能力。

●情感分析:计算机能够判断用戶评论是否积极。

●智能问答:计算机能够正确回答输入的问题。

●文摘生成:计算机能够准确归纳、总结并产生文本摘要。

●文本分类:计算机能够采集各种文章，进行主题分析，从而进行自动分类。

●舆论分析:计算机能够判断目前舆论的导向。●知识图谱:知识点相互连接而成的语义网络。

3、发展历程

1956年前的萌芽期

快速发展期(1980年〜1999年)

　　--90年代后，基于统计的自然语言处理开始大放异彩。首先是在机器翻译领域取得了突破，因为引入了许多基于语料库的方法。

20世纪90年代中期，有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是20世纪90年代中期以来，计算机的运行速度和存储量大幅增加，为自然语言处理改善了物质基础，使得语音和语言处理的商品化开发成为可能;另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。

突⻜猛进期(2000年至今)

　　--深度学习是一种将原始数据通过一些简单但是非线性的模型转变成更高层次、更加抽象表达的特征学习方法，一定程度上解决了人类处理“抽象概念”这个亘古难题。目前，深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果，相关技术也被成功应用于商业化平台中。

1.3 NLP相关知识的构成

1、基本术语

（1）分词（segment）（2）词性标注（part- of- speech tagging）（3）命名实体识别（NER，Named Entity Recogntion）（4）句法分析（5）指代消解（6）情感识别

（7）纠错（8）问答系统（QA System）

2、知识结构

句法语义分析关键词抽取文本挖掘机器翻译信息检索问答系统对话系统

1.4 语料库

巧妇难为无米之炊，语料库就是NLP的“米”

(1)中文维基百科

(2)搜狗新闻语料库

(3)IMDB情感分析语料库

为什么深度学习可以在NLP中取得这样的成绩呢?大概可以归结为两点:

(1)海量的数据。经过之前互联网的发展，很多应用积累了足够多的数据可以用于学习。当数据量增大之后，以SVM(支持向量机)、CRF(条件随机场)为代表的传统浅层模型，由于模型过浅，无法对海量数据中的高维非线性映射做建模，所以不能带来性能的提升。然而，以CNN、RNN为代表的深度模型，可以随着模型复杂度的增大而增强，更好贴近数据的本质映射关系，达到更优的效果。

(2)深度学习算法的革新。一方面，深度学习的word2vec的出现，使得我们可以将词表示为更加低维的向量空间，相对于one-hot方式，这既缓解了语义鸿沟问题，又降低了输入特征的维度，从而降低了输入层的维度，另一方面，深度学习模型非常灵活，使得之前的很多任

务，可以使用端到端的方式进行训练。例如机器翻译，传统的方法需要先进行分词、对⻬、翻译，语言模型需要依赖各个模块，每个模块的误差会传递到下个模块，使得整个系统不是一个整体，变得不太可控。而使用端到端的方式，可以直接映射，避免了误差的传递，提升了性能。

NLP过去几十年的发展，从基于简单的规则方法到基于统计学方法，再到现在的基于深度学习神经网络的方法，技术越来越成熟，在很多领域都取得了巨大的成就。