solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题

一、Solr Multivalue field属性positionIncrementGap理解

分类：Lucene

2014-01-22 10:39阅读(3596)评论(0)

参考：http://rockiee281.blog.163.com/blog/static/19385222920127225619919/

Solr里头可以设计Field为Multivalue类型，这样的一个好处是可以很方便的设置copyField，在我们的项目中也有使用。

但是一直以来都有一个问题困扰着我，就是对multivalue里头多个值域的搜索问题。多个value之间我认为应该是保持相互独立的，但是在实际搜索中感觉solr把所有的值域都串在一起，当作一个长value来处理，没有达到我想要的效果。后来通过搜索，我发现solr的field type中有一个positionIncrementGap字段，

，在网上看到一段讨论：http://lucene.472066.n3.nabble.com/positionIncrementGap-in-schema-xml-td488338.html。其中有人举了一个例子：

一看之下大喜过望，这不是就是我想要的效果么马上去翻我solr的schema.xml的配置，一看我就凉了：

</tokenizer>

</analyzer>

</tokenizer>

</analyzer>

</fieldtype>

居然之前已经配置过了！！！那就是这个配置没有生效，是什么造成的呢？因为我没有使用solr自己的standardTokenizerFactory，而是为了中文分词使用了MMSeg4J的类，我就把怀疑的目光放到了MMSeg4J身上。检查了MMSegTokenizerFactory的源代码，发现里头木有对positionIncrementGap的处理，以为问题出在这里，但是在深入对比MMSegTokenizerFactory和StandardTokenizerFactory及相关的代码类之后，感觉问题不应该出在建立索引的环节。

之后就是搜了一堆的资料，了解了positionIncrementGap这个字段的含义，其作用就是在对Multivalue Field进行处理的时候，给两个field中相隔的词人为的插入一段固定的distance，然后在使用Lucene/Solr做Phrase query的时候，如果没有指定Slop(对slop的介绍，可以参考:http://blog.csdn.net/rick_123/article/details/6708527)，会默认Slop为0，即查询的短语之间应该紧紧挨着，这样对很多情况下都得不到用户想要的结果。解决的办法就是使用phrase query，同时设置一个适当的Slop值，然后为了不让lucene的搜索跨越多个Field Value，设置一个远大于slop的positionIncrementGap，就可以达到目标。在这里不用担心positionIncrementGap设置过大会影响效率，尽情的设吧……

既然了解positionIncrementGap的含义，问题就一目了然，楼主为了查询的方便，使用自定的QueryParser替换了Solr自己默认的，将Phrase search改为了BooleanSearch，所以实际上导致了positionIncrementGap的失效。解决办法就是将BooleanSearch改为MultiPhraseQuery，同时调用MultiPhraseQuery.setSlop(int slop)方法设置slop为50（经验值，根据索引的数据设定，只要远小于positionIncrementGap即可）。测试ok达到效果！

二、多值字段 针对多值字段，查询表达式仍然会被拆分为一个一个的关键词，然后去跨句子去匹配。

三、动态字段 针对动态字段，查询表达式可以精确查到句子，但是不能确保通配查询。