中文分词技术

  在 语言理解中,词是最小的能够独立活动的有意义的语言成分。将词确 定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英 文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理 解,最终达到智能计算的最高境界。因此,每个NLP工作者都应掌握分 词技术。

主要内容:

●中文分词的概念与分类

●常用分词(包括规则分词、统计分词以及混合分词等)的技术介绍

●开源中文分词工具——Jieba简介
●实战分词之高频词提取

3.1 中文分词简介

在英语中,单词本身就 是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的, 而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然 是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将 句子转化为词的表示。这个切词处理过程就是中文分词,它通过计算 机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。 整个过程看似简单,然而实践起来却很复杂,主要的困难在于分词歧 义。以NLP分词的经典语句举例,“结婚的和尚未结婚的”,应该分词 为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?这个由 人来判定都是问题,机器就更难处理了。此外,像未登录词、分词粒 度粗细等都是影响分词效果的重要因素。

自中文自动分词被提出以来,历经将近30年的探索,提出了很多方 法,可主要归纳为“规则分词”“统计分词”和“混合分词(规则+统 计)”这三个主要流派。规则分词是最早兴起的方法,主要是通过人工 设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词 很难进行处理。随后统计机器学习技术的兴起,应用于分词任务上 后,就有了统计分词,能够较好应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合,即混合分词。

3.2 规则分词

基于规则的分词是一种机械分词方法,主要通过维护词典,在切分语句时,将语句的每个字符串与词典中的词进行逐一匹配。按照匹配切分的方式,主要有正向最大匹配发,逆向最大匹配法,和双向最大匹配法三种方法。

3.3 统计分词

随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流。其主要思想是把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个词语。

基于统计的分词,一般要做如下两步操作:

1)建立统计语言模型。

2)对句子进行单词划分,然后对划分结果进行概率计算,获得概率最 大的分词方式。这里就用到了统计学习算法,如隐含⻢尔可夫

(HMM)、条件随机场(CRF)等。

3.4混合分词

最常用的方式就是先基于词典的方式进行分词,然后再 用统计分词方法进行辅助。如此,能在保证词典分词准确率的基础 上,对未登录词和歧义词有较好的识别,Jieba分词工具便 是基于这种方法的实现。

 

原文地址:https://www.cnblogs.com/wzf-Learning/p/12606527.html