代理选择

前言

随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进行爬取,那么网站就不知道是我们的爬虫一直在爬取了,这样就有效地解决了反爬的问题。 那么问题来了,使用什么代理好呢?这里指的代理一般是 HTTP 代理,主要用于数据爬取。现在打开搜索引擎一搜 HTTP 代理,免费的、付费的太多太多品牌,我们该如何选择呢?看完这一篇文章,想必你心中就有了答案。 对于免费代理,其实想都不用想了,可用率能超过 10% 就已经是谢天谢地了。真正靠谱的代理还是需要花钱买的,那这么多家到底哪家可用率高?哪家响应速度快?哪家比较稳定?哪家性价比比较高?为此,我对市面上比较流行的多家付费代理针对可用率、爬取速度、爬取稳定性、价格、安全性、请求限制等做了详细的评测,让我们来一起看一下到底哪家更强!


最好的推荐:多测试!多测试!多测试!!

讲道理,这个行业水深火热,各种营销,各种名词,各种私密代理、公开代理等等,其实都是质量残次不齐的表现,讲几个关键词

住宅IP:高匿是付费代理的基本要求,不是高匿的就不在本次讨论范围,就好像我们讨论哪款汽车好,不应该考虑自行车一样,那什么是住宅IP?我们可以理解成IP真人率的问题,你获取的IP代理,通过检测网站:,显示如下:

我们再输入一个阿里云的服务器地址,注意对比我红框框选的内容有什么区别,结果如下:

那么问题来了,如果你是目标网站,你发现访问你网站的IP都来自于数据中心,你会认为它是正常用户吗?当你认为它是爬虫程序时,你还会给它返回正常的数据吗?拒绝访问、返回空白这些都还是轻的,有些网站会返回给你“加工”过的数据,而你自己还不自知,这才是最恐怖的,当你利用了这些不正确的数据,后果你细品。

这里要说明一点,检测是不是真实宽带或者数据中心的IP,一定要检测发送请求的IP,而不是服务器的ip,服务器的IP一定是显示数据中心的,因为有些二次转发的模式,返回给你的IP都是服务器IP,但是请求IP会另外分配。


独享IP:是指当你获取IP后,这段时间内,这个IP就只提供给你使用而不会分配给其他人使用,这样保证了IP的稳定性,同时确保了带宽,不会受到其它用户干扰,如果是共享IP,那同时有很多人在使用这个IP发送请求,速度就得不到保证,如果同时有另外一个用户也在爬取跟你一样的网站,同一个IP发送多个请求,你细品会发生什么?那么如何区分独享还是共享呢?很简单,提取不收费,使用才收费的,就都是共享的,因为IP放在哪里,你不用别人在用,我没什么损失,独享IP一般都是提取就计费的,因为分配给你之后,这个IP就被你占用了,我无法卖给其它人,所以无论你用不用,我都会收费,现在你还觉得提取不扣费,使用才扣费的就是好产品吗?

IP池大小:现在声称几十万、几百万、几千万IP的都有,但是重复调用的和真实IP要区分开,有些有1万IP,重复调用每天能有几十万,会声称自己几十万IP,有些有十万IP,重复调用每天可到百万级别,会吹嘘自己有几百万IP,我目前用到过的,真实IP每天能获取240万左右,重复调用在4000万左右,避免广告嫌疑,我就不说是哪家了,不过真有这么大需求的话,我想你也不会轻易下手购买,市面上主流的都测试一遍,你就知道我说的是哪家了。无论广告怎么吹嘘,一测就什么都出来了,所以重要的事情说三遍:多测试多对比!多测试多对比!多测试多对比!

并发量:并发是什么意思大家都懂,测试一家供应商实力除了看IP池,其实看并发量也是很好的一个指标,小打小闹的,并发量肯定是不高的,我用过最高的并发可以达到万级的。同样是上面的那家。

分布:真正离散分布的住宅IP,分布肯定是遍布全国所有的城市,或者全球几乎所有互联网覆盖的国家和地区,只是数量多与少的问题,这样与网民IP高度重合的,才是网站反爬程序最无解的。

时效:其实爬虫对于IP时效要求很低,因为一个IP一般短时间内根据反爬,发送几次请求就需要更换了,所以对时效要求不高,短的几十秒1分钟就够,长的也就十几分钟半个小时。所以这点对爬虫不那么重要。

所以,爬虫程序在选择IP代理的时候,一定要选择住宅IP,而且必须独享,一分钱一分货,一块钱五分货是没错的,所以那些几百块钱包月不限量提取的,你问问为什么那么便宜。那些所谓的开放代理、私密代理,如果你是个人小需求,可以试试看,大公司就别去浪费时间了,一来它没那么大量满足你,二来质量也满足不了你的要求。

另外,所谓的不限量,实际上是限量的,因为它池子有限,所以会限制你提取频率,限制并发,比如每10秒才能提取50个IP,那你算算一天最多是多少IP?这叫不限量吗?

原文地址:https://www.cnblogs.com/cuihongyu3503319/p/14889604.html