es倒排索引、分词器

倒排索引

常规目录:正排索引,文档id到文档内容和单词的关联

附录索引:倒排索引,单词到文档id的关联

倒排索引项组成

  1. 文档id
  2. 词频,相关性
  3. 位置
  4. 偏移,开始和结束的位置,用于高亮显示等

elasticsearch的json的每一个字段都有自己的倒排索引

analysis分词

Analyzer是es内置的分词器。

  1. Character Filters:原始处理,比如去除html标签
  2. Tokenizer:拆分器,按照规则进行拆分,比如按照空格进行拆分
  3. Token Filters:对已经拆分的单词进行二次加工,比如全部小写等
GET _analyze
{
  "analyzer": "standard",
  "text":"this is a test TEXT, but i think it's enough"
}
作者:iBrake
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
原文地址:https://www.cnblogs.com/Brake/p/14495419.html