中文分词—基于Lucene的分词器—支持中英文混合词

最近自己动手写了一个中文分词器，没有什么高深的算法，就是基于词库匹配的一个简单程序。

该分词器支持中英文混合词，像“大s” ，“小3” 什么的，只要自己的词库有这个词，他就能分出来。

这个分词原理是正向最大匹配，不过只有简单消除歧义。

个人觉得消除歧义的话，只适合部分句子，有时候消除歧义反而会让有些正常语句分出不好的结果来。

该程序没有做过多消除歧义，个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

如果你的分词器是用来针对某个领域的话，消除歧义不建议使用，如果你了解分词原理并对消除歧义测试结果做过大量测试的话，你会发现这点。（这只代表我个人观点，不喜勿喷）

现在开始介绍下该分词器：

分词原理：假如有这么一句话 "你好，我是TomcatTD"

程序接收到这句话后，会从左到右依次读取，遇到标点符号的话截断，出现的每个词都和词库进行比较，如果词库里没有这个词，则取下个字开头的词

例子

你

你好

你好，

，

我

我是

TomcatTD

如果你词库里有 ”你好“，“我是” 这两个词的话

他就会分出来

最后结果是：你好，我是 TomcatTD

如果是“大s的妈妈病了”

只要你在词库里添加 “大s” “妈妈” “病了”

就会分出 “大s 的妈妈病了”