中文分词—基于Lucene的分词器—支持中英文混合词

最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。

该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。

这个分词原理是正向最大匹配,不过只有简单消除歧义。

个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。

该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)

现在开始介绍下该分词器:

分词原理 : 假如有这么一句话   "你好,我是TomcatTD"

程序接收到这句话后,会从左到右依次读取,遇到标点符号的话截断,出现的每个词都和词库进行比较,如果词库里没有这个词,则取下个字开头的词

例子

你好

你好,

我是

TomcatTD

如果你词库里有 ”你好“,“我是” 这两个词的话

他就会分出来

最后结果是: 你好      ,        我是          TomcatTD

 如果是“大s的妈妈病了”

只要你在词库里添加 “大s” “妈妈” “病了”

就会分出 “大s          的           妈妈           病了”

原文地址:https://www.cnblogs.com/tomcattd/p/2835591.html