爬虫的本质是和分布式爬虫的关系

爬虫的本质是什么

搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。

一:在实际的工作中,爬虫根本不需要去分布式爬虫

  1.现在服务器越来越好,网络也越来越好,一台优秀的服务器加上好的网络,开多线程或者多进程抓取等并发抓取手段,完全可以轻松实现日抓取千万数据。

  2.大部分公司的数据采集量,每日也就是几十万或者采集网站数据量也就几万条数据而已。没有那么大的数据量,去搞分布式爬虫有什么那么意义呢?

二:分布式爬虫只是提高爬虫效率的一个环节,,它从来不是爬虫的本质东西。

  爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是爬虫要去解决的核心问题。

分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么,当数据量很少的时候。

,根本就没有必要去搞分布式爬虫,对大部分公司所抓取得数据量来说,搞分布式爬虫意义不大

原文地址:https://www.cnblogs.com/xuchunlin/p/12633950.html