TOKENIZED,UN_TOKENIZED 解释

网上很多例子用的是lucene1.4.3,新版本的lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); 这些地方与旧版本有很大的区别。
Field有两个属性可选:存储和索引。通过存储属性你可以控制是否对这个Field进行存储;通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话,事实上对这两个属性的正确组合很重要。
Field.Index             Field.Store       说明
TOKENIZED(分词)   YES                   被分词索引且存储
TOKENIZED             NO                   被分词索引但不存储
NO                         YES                   这是不能被搜索的,它只是被搜索内容的附属物。如URL等
UN_TOKENIZED     YES/NO             不被分词,它作为一个整体被搜索,搜一部分是搜不出来的
NO                         NO                   没有这种用法

如果要对某Field进行查找,那么一定要把Field.Index设置为TOKENIZED或UN_TOKENIZED。TOKENIZED会对Field的内容进行分词;而UN_TOKENIZED不会,只有全词匹配,该Field才会被选中。
如果Field.Store是No,那么就无法在搜索结果中从索引数据直接提取该域的值,会使null。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/sightboy/archive/2009/10/20/4702709.aspx

原文地址:https://www.cnblogs.com/0000/p/1615154.html