菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)

网站爬虫不做过多介绍可参考博文：

今天主要讲一下反反爬的思路。

博文的做法是通过post接口访问，但没有做反反爬处理

这个接口的时延很低但是会封ip,反爬措施做的很到位，别说是爬虫人手点快一点都会被封ip。

尝试过使用休息和代理ip池请求，效果不佳，由于客户需要数据只能采用“暴力模拟法”：

通过selenium+chrome+chromedriver模拟人点击过程，且强制休息等待时间。

经过测试还是能爬到可观的数据量的，但是长时间还是会"封页面"（和封ip不同，封ip会导致你在其他页面和浏览器都无法请求到数据）

目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息没有爬完客户只需要这么多，后期考虑补充完整数据库。