40.倒排索引核心原理

主要知识点

倒排索引核心原理：normalization

假设有两个文档，内容如下

doc1：I really liked my small dogs, and I think my mom also liked them.

doc2：He never liked any dogs, so I hope that my mom will not expect me to liked him.

1、初步分词，只是确定该词是否在文档中存在，不做其他处理

word doc1 doc2

I * *

really * *

my * *

small *

dogs *

and *

mom * *

also *

them *

He *

any *

so *

hope *

that *

will *

not *

me *

to *

him *

接下下搜索"mother like little dog"，发现没有结果，doc1,doc2 都没有被搜索出来，原因如下："mother like little dog"，分词后的词为 mother、like、little、dog。doc1和doc2均不含有这四个词，所以搜索不出来结果，

二、normalization

按常规来说，对于上述搜索es是应该出来结果的，因为mother和mom是同义词，like和liked只是时态不同，little和small是同义词，dog和dogs是单复数形式不同。可以发现如果仅仅这样建立是否存在的索引，而不做其他处理的话是没有多大用处的，所以在es内部，在建立倒排索引的会进行normalization， es对content的处理tokenization和normalization称为analysis过程。ES有很多种内置的analyzer来处理这些。normalization处理过程会在建立倒排索引的时候执行进一步的操作，对拆分出的各个单词进行相应的处理（包括但不限于时态的转换，单复数的转换，同义词的转换，大小写的转换等）以提升后面搜索的时候能够搜索到相关联的文档的概率。经过normalization处理后就可以搜索出正确的结果。