一道数据处理的算法题

有一份5000万个用户的数据,有一份2亿个用户看电影的记录。只有1G的内存,找到看电影最多的前1000个用户?

应该怎么做呢?

我一开始的想法,哎呀,快速排序!把2亿个用户的数据提取出来放到5000万长度的数组里进行快速排序。把2亿个用户的数据提取出来,只能靠HashMap了,那么就要在建一个5000万个Key的HashMap了。但是想想只有1G的内存。

查找资料,在一个人博客中写到:1000000个item的HashMap就占内存接近60M了,那么5000万个item估计就要超过1个G了,因为HaspMap是非常非常消耗内存的。越是我的这个想法就宣告失败。

其实从思想上来看,我的这个想法只是暴力而已,用已经熟知的快速排序在时间上找点优势。然后看看题目,就知道他考你的不是时间,而是内存。我们都知道快速排序用的分而治之的思想,和这个思想相同的排序算法还有归并排序。

这个问题的正确解法应该是将2亿个记录分成一段段小的部分(可以用1G内存处理的部分),然后用我上面的方法进行排序,这样得出来每段的顺序,取前1000个,然后两两结合再次排序,或者三三结合也行。直到最后合并成一块,那就是我们需要的东西。

纵观下来,这就是归并排序的思想,也是分而治之的思想。在物理内存限制的情况下,我们只能局部求解,慢慢扩展到整体。这样可以用少的内存解决一个很庞大的问题。

如果这样的思想能在你的脑袋里扎根,那么很多问题你就可以解决了。

原文地址:https://www.cnblogs.com/dacc123/p/8926632.html