如何在大量的数据中判断一个数是否存在

题目描述：

在 2.5 亿个整数中判断一个数是否存在。注意：内存不足以容纳这 2.5 亿个整数。

分析与解答：

显然 2.5 亿数据量太大，不可能一次性把所有的数据都加载到内存中，那么最容易想到的方法就是分治法。
方法一：分治法
对于大数据相关的算法题，分治法是一个非常好的方法。针对这道题，主要的思路：可以根据实际可用内存的情况，确定一个 hash 函数，如 hash（value）%1000，通过这个 hash 函数可以把这 2.5 亿个数字划分到 1000 个文件中（a1，a2，…，a1000），然后对待查找的数字使用相同的 hash 函数求出 hash 值，假设计算出的 hash 值为 i，如果这个数存在，那么它一定在文件 ai 中。通过这种方法就可以把题目的问题转换为文件 ai 中是否存在这个数。那么在接下来的求解过程中可以选用的思路比较多，如下所示：
1）由于划分后的文件比较小，可以直接被装载到内存中，可以把文件中所有的数字都保存到 hash_set 中，然后判断待查找的数字是否存在。
2）如果这个文件中的数字占用的空间还是太大，那么就可以用相同的方法把这个文件继续划分为更小的文件，然后确定待查找的数字可能存在的文件，最后在相应的文件中继续查找。
方法二：位图法
对于这类判断数字是否存在、判断数字是否重复的问题，位图法是一种非常高效的方法。这里以 32 位整型为例，它可以表示数字的个数为 232。可以申请一个位图，让每个整数对应位图中的一个 bit，这样 232个数需要位图的大小为 512MB。具体实现的思路：申请一个 512MB 大小的位图，并把所有的位都初始化为 0；接着遍历所有的整数，对遍历到的数字，把相应位置上的 bit 设置为 1。最后判断待查找的数对应的位图上的值是多少，如果是 0，则表示这个数字不存在，如果是 1，则表示这个数字存在。