Elasticsearch学习之深入搜索五 --- phrase matching搜索技术

1. 近似匹配

什么是近似匹配，两个句子

java is my favourite programming language, and I also think spark is a very good big data system.
java spark are very related, because scala is spark's programming language and scala is also based on jvm like java.

match query，搜索java spark

{
    "match": {
        "content": "java spark"
    }
}

　　match query，只能搜索到包含java和spark的document，但是不知道java和spark是不是离的很近，包含java或包含spark，或包含java和spark的doc，都会被返回回来。我们其实并不知道哪个doc，java和spark距离的比较近。如果我们就是希望搜索java spark，中间不能插入任何其他的字符，那这个时候match去做全文检索，能搞定我们的需求吗？答案是，搞不定。

　　如果我们要尽量让java和spark离的很近的document优先返回，要给它一个更高的relevance score，这就涉及到了proximity match，近似匹配

如果说，要实现两个需求：

（1）java spark，就靠在一起，中间不能插入任何其他字符，就要搜索出来这种doc
（2）java spark，但是要求，java和spark两个单词靠的越近，doc的分数越高，排名越靠前

要实现上述两个需求，用match做全文检索，是搞不定的，必须得用proximity match，近似匹配

phrase match，proximity match：短语匹配，近似匹配

　　phrase match，就是仅仅搜索出java和spark靠在一起的那些doc，比如有个doc，是java use'd spark，不行。必须是比如java spark are very good friends，是可以搜索出来的。phrase match，就是要去将多个term作为一个短语，一起去搜索，只有包含这个短语的doc才会作为结果返回。不像是match，java spark，java的doc也会返回，spark的doc也会返回，match_phrase语法

GET /forum/article/_search
{
    "query": {
        "match_phrase": {
            "content": "java spark"
        }
    }
}

2. term position

hello world, java spark doc1
hi, spark java doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

了解什么是分词后的position

GET _analyze
{
    "text": "hello world, java spark",
    "analyzer": "standard"
}

3. match_phrase的基本原理

索引中的position，match_phrase

hello world, java spark 　　 doc1
hi, spark java 　　 doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

java spark --> match phrase

java spark --> java和spark

java --> doc1(2) doc2(2)
spark --> doc1(3) doc2(1)

要找到每个term都在的一个共有的那些doc，就是要求一个doc，必须包含每个term，才能拿出来继续计算

doc1 --> java和spark --> spark position恰巧比java大1 --> java的position是2，spark的position是3，恰好满足条件

doc1符合条件

doc2 --> java和spark --> java position是2，spark position是1，spark position比java position小1，而不是大于1 --> 光是position就不满足，那么doc2不匹配

4. slop

slop的含义是什么？

　　query string，搜索文本，中的几个term，要经过几次移动才能与一个document匹配，这个移动的次数，就是slop,实际举例，一个query string经过几次移动之后可以匹配到一个document，然后设置slop

hello world, java is very good, spark is also very good.

java spark，match phrase，搜不到

如果我们指定了slop，那么就允许java spark进行移动，来尝试与doc进行匹配

java 　　is 　　　 very 　　good 　　spark 　　is

java 　　spark
java 　　 --> 　　 spark
java 　　　　　　　 --> 　　spark
java 　　　　　　　　　　　 --> 　　spark

这里的slop，就是3，因为java spark这个短语，spark移动了3次，就可以跟一个doc匹配上了

slop的含义，不仅仅是说一个query string terms移动几次，跟一个doc匹配上。一个query string terms，最多可以移动几次去尝试跟一个doc匹配上

slop，设置的是3，那么就ok

GET /forum/article/_search
{
　　　"query": {
　　　　"match_phrase": {
　　　　　　"title": {
　　　　　　　　"query": "java spark",
　　　　　　　　"slop": 3
　　　　　　}
　　　　}
　　}
}

　　就可以把刚才那个doc匹配上，那个doc会作为结果返回,但是如果slop设置的是2，那么java spark，spark最多只能移动2次，此时跟doc是匹配不上的，那个doc是不会作为结果返回的,其实，加了slop的phrase match，就是proximity match，近似匹配