爬虫进阶

爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。
相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。
接着开始接触传说中给人用的requests ,惊呼『这简直是太棒了』。
在requests的学习中,我们知道了proxy ,知道了user-agent,知道了如何post。
随后,我们开始放下写的头疼的正则表达式(regex ),开始了解xpath , BeautifulSoup ,又是一阵 惊呼。
我们攻克了知乎(曽经),攻克了移动端的微博,却卡在了网页版的微博。于是我们知道了 selenium,用上了PhantomJS ,好嘛,现在浏览器能做的我都能做了。
渐渐地我们不满足于单线程的慢慢虫,于是我们开始写多线程。
渐渐地我们不满足于把数据放在csv文件中,于是我们开始用上mysql , mongodb , redis。
最终我们发现从头开始写4爬虫太不划算了,于是我们又捡起了一^始曽接触但随即放弃了的 scrapy。乖乖,现在我们才发现scrapy的速度那么快,效率那么高。我们不禁有些泄气。

原文地址:https://www.cnblogs.com/wangshuyi/p/6737107.html