Lucene学习二次开发之——分词开发流程

最近没什么事情可做，于是就看了看Lucene源码，以往版本Lucene的各个功能都是合在一个jar 包的，

最近发布4.0，4.1 就将各个功能都分开了

首先对分词（分析）部分进行了学习

说是分词，更准确的应该叫分析，主要指将域（Field）文本转换为最基本的索引表示单元 ——项（Term）的过程。

这些操作包括：提取单词，去掉标点，将字母转换为小写，去除常用词（停用词），将单词还原为词干…………

Token（单个词信息）和他所在域（Filed）结合后就是项——term

多个Term 组成了Field

分词流程：

在Lucene中，对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。

Tonkenizer类、TokenFilter类是TokenStream的两个子类。

Tokenizer处理单个字符组成的字符流，读取Reader对象中的数据，处理后转换成词汇单元。

TokneFilter完成文本过滤器的功能，但在使用过程中必须注意不同的过滤器的使用的顺序。

Analyzer

他下面有几个重要的方法

(3.x版本中)：

（1） public abstract TokenStream tokenStream(String fieldName, Reader reader);

该方法需要自定义的分词器去实现，并返回TokenStream，即将对象以Reader的方式输入分词为fieldName字段。

TokenStream:分词流，即将对象分词后所得的Token在内存中以流的方式存在，也说是说如果在取得Token必须从TokenStream中获取，而分词对象可以是文档文本，也可以是查询文本。

参数说明：

fieldName——字段名，也就是你建索引的时候对应的字段名，比如：Field f = new Field("title","hello",Field.Store.YES, Field.Index.TOKENIZED);这句中的"title"；

reader——java.io.Reader对象；

（2） public TokenStream reusableTokenStream(String fieldName, Reader reader)

设置为可复用TokenStream，将同一线程中前面时间的TokenStream设置为可复用。那些无必要同一时刻使用多个TokenStream的调用者使用这个方法，可以提升性能。

（4.0—1 版本）
（1）TokenStreamComponents createComponents(String fieldName, Reader reader)

实现他的方法有（这是从3.x 的api上摘的，但在源码里好像没有这些类像SmartChineseAnalyzer 看了下api 貌似是中科院imdict继承的， 4.x 版本中证实了想法，把这个都放在了lucene-analyzers-common-4.1.0.jar包里了）：

CollationKeyAnalyzer, ICUCollationKeyAnalyzer, LimitTokenCountAnalyzer, MockAnalyzer, PerFieldAnalyzerWrapper,QueryAutoStopWordAnalyzer,

QueryParserTestBase.QPTestAnalyzer, ReusableAnalyzerBase, ShingleAnalyzerWrapper, SmartChineseAnalyzer,SnowballAnalyzer

在（4.x 的版本中实现他的方法就只有AnalyzerWrapper）

Lucene 自带的几个分词器

继承自ReusableAnalyzerBase

WhitespaceAnalyzer 这是根据空格分割的

SimpleAnalyzer 他是先根据非字母字符来分割，并且将字符转换为小写，这个分词器会去掉数字类型的字符

TokenStream

是一个抽象类，枚举词序列，要么是从一个文档的域得来，要么是从一个查询文本中得到。主要任务有：

（1）获取下一Token；

public abstract boolean incrementToken() throws IOException;

（2）重设流（可选）；public void reset() throws IOException

（3）关闭流，释放资源；public void close() throws IOException

实现他的方法Lucene自带的有

CannedTokenStream, CategoryAttributesStream, EmptyTokenStream, NumericTokenStream, PrefixAndSuffixAwareTokenFilter,PrefixAwareTokenFilter,

ShingleMatrixFilter, SingleTokenTokenStream, TeeSinkTokenFilter.SinkTokenStream, TokenFilter, Tokenizer,TokenStreamFromTermPositionVector

Token

该类继承了一个类

TermAttributeImpl

实现了

TypeAttribute 表示token的字符串信息

PositionIncrementAttribute 表示token词典类别信息，默认为“Word”，

FlagsAttribute 用于在Tokenizer链之前传递标记（因为前面一个操作可能会影响后面的操作）。那么这个属性有什么用呢，用处很大的。加入我们想搜索一个短语student apples(假如有这个短语)。很显然，用户是要搜索出student apples紧挨着出现的文档。这个时候我们找到了某一篇文档(比如上面例子的字符串)都含有student apples。但是由于apples的PositionIncrementAttribute值是5，说明肯定没有紧挨着。

OffsetAttribute 表示token的首字母和尾字母在原文本中的位置，需要注意的是startOffset与endOffset的差值并不一定就是termText.length()，因为可能term已经用过滤器处理过

PayloadAttribute 即负载量意思，是每个term出现一次则存储一次的元数据，它存储于特定term的posting list内部。

PositionLengthAttribute 它表示tokenStream中的当前token与前一个token在实际的原文本中相隔的词语数量，用于短语查询。

Tokenizer

继承了TokenStream类该类主要是接收输入流并根据输入流进行词切分。虽然她本身是个抽象类，但是定制分词器的核心之一。

实现的子类有很多

Lucene自带的就有：

CharTokenizer, ChineseTokenizer, CJKTokenizer, ClassicTokenizer, EdgeNGramTokenizer, EmptyTokenizer, ICUTokenizer,JapaneseTokenizer, KeywordTokenizer,

MockTokenizer, NGramTokenizer, PathHierarchyTokenizer, ReversePathHierarchyTokenizer,SentenceTokenizer, StandardTokenizer, UAX29URLEmailTokenizer, WikipediaTokenizer

TokenFilter

TokenFilter类继承于TokenStream，其输入是另一个TokenStream，主要职责是对TokenStream进行过滤，例如去掉一些索引词、替代同义索引词等操作。

实现他的子类很多不过一般实用的类有对空格过滤，停止词过滤，

实现他的子类有：

ArabicNormalizationFilter, ArabicStemFilter, ASCIIFoldingFilter, BeiderMorseFilter, BrazilianStemFilter, BulgarianStemFilter,CachingTokenFilter,

CategoryParentsStream, CategoryTokenizerBase, ChineseFilter, CJKBigramFilter, CJKWidthFilter, ClassicFilter,CollationKeyFilter, CompoundWordTokenFilterBase,

CzechStemFilter, DelimitedPayloadTokenFilter, DoubleMetaphoneFilter,DutchStemFilter, EdgeNGramTokenFilter, ElisionFilter,

EnglishMinimalStemFilter, EnglishPossessiveFilter, FilteringTokenFilter,FinnishLightStemFilter, FrenchLightStemFilter, FrenchMinimalStemFilter,

FrenchStemFilter, GalicianMinimalStemFilter,GalicianStemFilter, GermanLightStemFilter, GermanMinimalStemFilter, GermanNormalizationFilter,

GermanStemFilter,GreekLowerCaseFilter, GreekStemFilter, HindiNormalizationFilter, HindiStemFilter, HungarianLightStemFilter,

HunspellStemFilter,ICUCollationKeyFilter, ICUNormalizer2Filter, ICUTransformFilter, IndicNormalizationFilter,

IndonesianStemFilter,IrishLowerCaseFilter, ISOLatin1AccentFilter, ItalianLightStemFilter, JapaneseBaseFormFilter,

JapaneseKatakanaStemFilter,JapaneseReadingFormFilter, KeywordMarkerFilter, KStemFilter, LatvianStemFilter,

LimitTokenCountFilter, LookaheadTokenFilter,LowerCaseFilter, MockFixedLengthPayloadFilter, MockHoleInjectingTokenFilter,

MockVariableLengthPayloadFilter, NGramTokenFilter,NorwegianLightStemFilter, NorwegianMinimalStemFilter, NumericPayloadTokenFilter,

OffsetLimitTokenFilter, PersianNormalizationFilter,PhoneticFilter, PorterStemFilter, PortugueseLightStemFilter, PortugueseMinimalStemFilter,

PortugueseStemFilter, PositionFilter,QueryParserTestBase.QPTestFilter, ReverseStringFilter, RussianLightStemFilter, RussianLowerCaseFilter,

RussianStemFilter,ShingleFilter, SnowballFilter, SpanishLightStemFilter, StandardFilter, StemmerOverrideFilter, StempelFilter,

SwedishLightStemFilter,SynonymFilter, TeeSinkTokenFilter, ThaiWordFilter, TokenOffsetPayloadTokenFilter, TurkishLowerCaseFilter,

TypeAsPayloadTokenFilter,ValidatingTokenFilter, WordTokenFilter

知道了Lucene分词的核心方法分词扩展就比较容易了

我自己将以前的分词器继承了4.x

下面是输出代码：

    public String ordinaryAnalyzer(String string) {
        Analyzer analyzer = new MyAnalyzer(Version.LUCENE_41);
        TokenStream ts = null;
        StringBuffer sb = new StringBuffer();
        try {
            ts = analyzer.tokenStream("sentence", new StringReader(string));
            CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
            ts.reset();

            while (ts.incrementToken()) {
                if (term.toString().equals(" ")) {

                } else {
                    sb.append(term.toString() + " ");
                }

            }
            ts.end();

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (ts != null) {
                try {
                    ts.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return sb.toString().trim();
    }

你还可以加入别的信息开始位置，结束位置，还有type

public class TestFenci {

    public static void main(String[] args) {

        ChineseAnalyzer as = new ChineseAnalyzer();
        long startTime = System.currentTimeMillis();
        String sentence = "男 包北京海淀";
        as.wordAnalyzer(sentence);
        System.out.println("挑出地址：" + as.pickCityAnalyzer(sentence));
        System.out.println("普通分开：" + as.ordinaryAnalyzer(sentence));
        System.out.println("加扩展：" + as.expandAnalyzer(sentence));
        System.out.print(System.currentTimeMillis() - startTime);
    }

}

结果：