CLucene 中文分词

clucene是c++版的lucene，可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。

我在看了《lucene in arction》一周之后，在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到，在网上收集clucene中文分词相关资料，发现主要有三个方面：

1、字符编码集问题：

项目设置：必须设置为Use Unicode Character Set。
因为使用ANSI时，汉字存在与其他语言编码重叠的问题，在分析文本时，很难判断一个char是否是半个汉字，或者是前半个汉字还是后半个汉字。同时，CLucene对UCS2编码能够提供支持，所以VC项目直接设置为Use Unicode Character Set。

对应的字节函数改变：\src\CLucene\util\Misc.cpp，line 76的Misc::_cpycharToWide函数
这个函数是CLucene中用来将char字符串转换为wchar_t字符串，但原有代码中的转化方式是不考虑编码，因此对汉字由ANSI到UCS2转换会失效，需要修改成使用windows API的MultiByteToWideChar函数

2、中文分词添加：

主要有2个方向：1）、 \src\CLucene\analysis\standard\StandardTokenizer.cpp
这个类实现了最基本的切分文本功能，包含英文分词、数字提取。虽然有包含CJK单字提取，但是不够完善。直接完善这里面的StandardTokenizer::ReadCJK处理中文函数；2）、添加一个新的 ChineseTokenizer.cpp处理中文分词问题；3）、中文分词方法：2分法，基于词典匹配法等，根据需要确定合适的方法，并不是越复杂越好。

我花了大约2周时间去跟踪clucene里面的索引建立和查询过程，最终只改了几行代码实现了简单的2分词法，实现了中文检索。

详细的网址信息：

http://hi.baidu.com/developer_chen/blog/item/8c4c62dfc5a3a7124954039c.html

http://hi.baidu.com/_1_1_1_1/blog/item/be1fe41f9fbf0f62f724e475.html

http://www.cnblogs.com/sunli

下面这篇文章非常好，阐述了系统架构和部分对象层次结构，有利于大家对lucene的深入理解，推荐给大家。

开放源代码的全文检索引擎Lucene

http://blog.csdn.net/heiyeshuwu/archive/2006/04/14/662805.aspx

对于中文分词，实际上一般需求都比较简单，不需要太复杂，大家可随意尝试。对于大型系统来说，毕竟速度是非常重要的。