大量的URL 字符串，如何从中去除重复的，优化时间空间复杂度

大量的URL 字符串，如何从中去除重复的，优化时间空间复杂度

1、内存够用，将URL存入hash链表，每个URL读入到hash链表中，遇到重复的就舍弃，否则加入到链表里面，最后遍历得到所有不重复的URL。

2、如果受内存限制，构造一个hash函数，把url适当散列到若干个比如1000个小文件中，然后在每个小文件中去除重复的url，再把他们合并。

原理是相同的url，hash之后的散列值仍然是相同的。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Yanss/p/12963708.html