并发采集同一站点被封的解决方案


索引页提取的 内容页URL
在同一个IP下 多线程 下载这些URL会被封IP


那就只能把这些IP 分到不同的客户机下的不同IP再下载
相当于把所有的内容页URL分出去分别下载


另外一种就是按主机分组,
还是多线程,但是一个线程负责一组。
不同的线程之间不同时下载一个域名的。
相当于是并行

原文地址:https://www.cnblogs.com/i80386/p/2243625.html