数据量大的情况用布隆过滤器判断是否已存在

处理待爬链接,目标网址数据量大的情况下,判断目标网址是否已存在

from bloom_filter import BloomFilter
bloom = BloomFilter(max_elements=10000000, error_rate=0.1)
# 添加URL
bloom.add('https://www.cnblogs.com/6min')
#判断是否在 exists = bloom.__contains__('https://www.cnblogs.com/6min')
原文地址:https://www.cnblogs.com/6min/p/10921622.html