7月读自然语言处理入门笔记

自然语言处理系统的输入源:语音,图像,文本。

语音识别:将语音经过识别后转化成文本。

光学字符识别:将图像中的字符识别后转化成文本。

得到文本后我们会围绕词语分析,这一步称为词法分析。

词法分析的主要任务:

  1. 中文分词:将文本分成有意义的词语。
  2. 词性标注:确定词语的类别和浅层的歧义消除。
  3. 命名实体识别:识别出较长的专有名词。

词法分析后,我们可以做些什么事?

1.得到一些有意义的单词列表,每个列表有自己的词性和其他标签。

根据这些单词与标签,提取出一部分有用的信息的过程叫做信息抽取

2.我们可以在文章级别做一系列分析。比如,判断一封邮件是否是垃圾邮件,将文档分门别类的整理。此时的任务被称为文本分类

我们还可以把相似的文档归到一起,或者排除重复的文档。此时任务称为文本聚类

3.我们还可以分析出句子的主谓宾结构,这一过程称为句法分析

自然语言处理的高级任务:

词义消歧(确定一个词在语境中的含义,不是简单的词性。)

语义角色标注(标注句子中的谓语与其他成分的关系。)

语义依存分析(分析句子中词语之间的语义关系。)

原文地址:https://www.cnblogs.com/liuguangshou123/p/13285094.html