位图和布隆过滤器

1、位图

位图是空间利用率极高的数据结构,能够使用很少的存储空间来存储更多的数据。

位图只标记数据的状态,用0和1来表示,1表示存在,0表示不存在

在java中,一个int有4个字节的长度,占据32个bit,只能存储一个数字,而在位图中可以标记32条数据。

例如

5在位图的存储形式:从右向左数5位,存储的是二进制数据,101

0000 0000 0000 0000 0000 0000 0010 1000

 9的存储形式:1001

0000 0000 0000 0000 0000 0001 0010 0000

 当我们去判断这个值是否存在的时候,判断这个位置的标记为0还是为1即可。为1表示当前数据可能存在,而为0则表示当前数据不存在。

2、布隆过滤器

布隆过滤器是基于位图实现,布隆过滤器增加了对数据的哈希算法的实现,可以多次hash来减少误判。

 例如x值经过三次hash,分别落在不同的标记位上,当我们需要判断当前值是否存在,就需要判断三次hash后的标记为是否都为1

有一个为0则表示不存在。

3、应用场景

场景:一般请求数据时,会先去访问redis,如果不存在,就再去查询数据库。

在redis的缓存击穿的问题中,大量的请求去访问一个redis中不存在的key,会导致大量的数据请求都去访问数据库

导致数据库崩溃。这时候我们就可以使用布隆过滤器在访问redis前调用。

实例:这里使用guava的布隆过滤器,hutool,redision都提供了布隆过滤器。

初始化布隆过滤器数据:

/**
 * @description: 布隆过滤器初始化数据
 **/
@Component
@Slf4j
public class BloomApplicationRunner implements ApplicationRunner {
    @Override
    public void run(ApplicationArguments args) throws Exception {
        //创建bloom过滤器,expectedInsertions表示创建多少个,fpp表示误判率,误判率越低,采用hash算法越多,占用内存也会变大。
        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), 10000, 0.05);
        //模拟存储用户id数据
        List<Integer> list = new ArrayList<>(10000);
        for (int i = 0; i < 10000; i++) {
            list.add(i);
            bloomFilter.put("user:id:"+i);
        }
        //赋值
        BloomFilterCache.userIdCache = bloomFilter;
    }
}

使用:


@RestController
@RequestMapping("/bloom")
public class BloomFilterController {
    @Autowired
    private StringRedisTemplate redisTemplate;

    @ApiOperation("判断用户id数据是否存在")
    @GetMapping("/test/{id}")
    public String getString(@PathVariable("id") String id){
            if(!BloomFilterCache.userIdCache.mightContain("user:id:"+id)){
                return "数据不存在";
            }
            return redisTemplate.opsForValue().get("user:id:1000");
    }
}


 

计算布隆过滤器的大小:

https://hur.st/bloomfilter/?n=10000000&p=0.03&m=&k=

本人经验学识有限,不足之处还希望可以交流交流。
原文地址:https://www.cnblogs.com/tdyang/p/15334494.html