菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)

网站爬虫不做过多介绍可参考博文:

https://blog.csdn.net/weixin_43636302/article/details/103830507

今天主要讲一下反反爬的思路。

博文的做法是通过post接口访问,但没有做反反爬处理

这个接口的时延很低但是会封ip,反爬措施做的很到位,别说是爬虫人手点快一点都会被封ip。

尝试过使用休息和代理ip池请求,效果不佳,由于客户需要数据只能采用“暴力模拟法”:

通过selenium+chrome+chromedriver模拟人点击过程,且强制休息等待时间。

经过测试还是能爬到可观的数据量的,但是长时间还是会"封页面"(和封ip不同,封ip会导致你在其他页面和浏览器都无法请求到数据)

目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息 没有爬完 客户只需要这么多,后期考虑补充完整数据库。

原文地址:https://www.cnblogs.com/xiaonancheng/p/12776582.html