海量数据处理--bloom filter

例题：给定两个大文件，各含有50亿条url，要求利用4G内存快速找出共同的url

解答：

假设两个文件为A和B，4G内存有32G位，可以表示5G的url。

本文采用bloom filter解答：

首先简单介绍一下bloom filter的思想，其核心是：位数组；K个hash函数。

通过对大量数据处理，通过k个hash函数将大量数据压缩存储到多个位当中。

查找的时候，根据K个hash函数的结果，如果有0那么就不在集合中，如果没有0那么就在集合中（可能会误判）。

这道题可以先通过对A处理，然后得到bloom filter，再对B处理，判断是否重复url。由于通过位压缩，位数组可以存在内存里，

然后减少文件访问次数，能够加快速度。但是可能会存在误判。

参考下面链接：