ElasticSearch Roaring bitmap 和跳表联合查询

ElasticSearch Roaring map

先把所有数按65535划分, 划分方法就是求商和余数,商代表数字最终在哪一块,余数代表最终在块内的数字
比如 1, 65536, 65537, 131073
则分成三个block: 1 | 1,2 | 3

对每一块的数据做判断,如果数据量大于4096,就用bitmap对这一块编码;否则保持不变,用原来对short格式。
bitmap编码: 比如 [1, 2, 5, 7]编码后11001001, 即每一位代表一个数

为什么用4096划分?
固定每块需要内存65535位,这种情况下,short最多存4096个数,大于4096只能用bitmap,小于4096没必要做转换,直接short就可以了。

联合查询 使用跳表

  1. 比如3个筛选条件, 共查处3个postid list , 每个list都是顺序的

  2. 把list按从数量从最少到最多排列,比如 l1 = [1, 10, 20], l2 = [1, 5, 10, 15, 20], l3 =[2, 4, 8, 10, 15 ,18, 20]
    第一个用10举例,10有两个尾巴节点,一个指向自己的20,一个指向 l2的10,这样就直接跳到了l2的10,就不需要再查l2的5了; 同样l2的10指向l3的10, 就可以跳过l3的2 4 8

  3. 如果是bitmap 不是short,直接按位与

原文地址:https://www.cnblogs.com/wangjiale1024/p/10868357.html