布隆过滤器

布隆过滤器在海量数据的处理应用较为广泛，比如，怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想，bitmap的做法是使用一个bit来表示某个对象是否有出现，但是其所需要的空间跟所处理对象的最大值有关。

布隆过滤器采用(k)个hash函数将对象hash成(k)个值，然后将bitmap中这(k)个对应的bit位置都设为1。在查询过程中，需要保证(k)个位置都是1的情况下，才认为该元素出现过。下面的示意图很好地揭示了布隆过滤器地原理。

那布隆过滤器就是引入了(k(k>1))个相互独立的哈希函数，保证在给定的空间、误判率下，完成元素判重的过程。(来源于zdxiq000：https://blog.csdn.net/zdxiq000/article/details/57626464)

布隆过滤器的优点有：

计算高效
省空间

同样，也有一定的缺点

不支持删除操作
存在误判

下面是一段java代码，可以很好的揭示其运算过程

public class BloomFilter{
    private final int size;
    private final int hashCount;
    private final BitSet bitSet;

    public BloomFilter(int size, int hashCount){
        this.size = size;
        this.hashCount = hashCount;
        this.bitSet = new BitSet(size);
    }

    public void put(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash) % size;
            bitSet.set(index);
        }
    }

    public boolean lookup(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash)%size;
            if(!bitSet.get(index)) return false;
        }
        return true;
    }

}

class BloomFilterTest{
    public static void main(String[] args) {
        BloomFilter bf = new BloomFilter(3, 100);
        bf.put("123");
        bf.put("1234");
        bf.put("234");

        System.out.println(bf.lookup("234"));
    }
}

布隆过滤器的误差计算

假设哈希函数等概率地选择每个数组位置，即哈希后的值符合均匀分布，那么每个元素等概率地哈希到位数组的m个比特位上，与其他元素被哈希到哪些位置无关(独立事件)。设定数组总共有m个比特位，有k个哈希函数。在插入一个元素时，一个特定比特没有被某个哈希函数置为1的概率是：(1 - dfrac{1}{m})。插入一个元素后，这个比特没有被任意哈希函数置为1的概率是：((1 - dfrac{1}{m})^k)。在插入了n个元素后，这个特定比特仍然为0的概率是：((1 - dfrac{1}{m})^{nk})。所以这个比特被置为1的概率是：(1 - (1 - dfrac{1}{m})^{nk})
现在检测一个不在集合里的元素。经过哈希之后的这k个数组位置任意一个位置都是1的概率如上。这k个位置都为1的概率是：：(left(1 - (1 - dfrac{1}{m})^{nk} ight)^k)，根据

[lim_{n->infty}(1 + dfrac{1}{n})^n = e ]

可以知道

[egin{split} left(1 - (1 - dfrac{1}{m})^{nk} ight)^k &= left[1 - (1 - dfrac{1}{m})^{-mdfrac{nk}{-m}} ight]^k\ &approx left[1 - e^{-dfrac{nk}{m}} ight]^k end{split} ]

当

[k = dfrac{m}{n}ln{2 }$$时，有最小值$ln p= -dfrac{m}{n}(ln 2)^2$]