大量的URL 字符串,如何从中去除重复的,优化时间空间复杂度

1、内存够用,将URL存入hash链表,每个URL读入到hash链表中,遇到重复的就舍弃,否则加入到链表里面,最后遍历得到所有不重复的URL。

2、如果受内存限制,构造一个hash函数,把url适当散列到若干个比如1000个小文件中,然后在每个小文件中去除重复的url,再把他们合并。

原理是相同的url,hash之后的散列值仍然是相同的。

原文地址:https://www.cnblogs.com/Yanss/p/12963708.html