爬虫与反爬技术汇总

1.对于爬取模拟用户登陆的网站,可以采用requests.session或selenium进行操作,当然有些网站需要进行图片验证,则可以手工输入,或者采用云打码等平台进行识别

2.对于请求的参数是加密的网站,则需要详细分析js代码。

3.静态网站,例如京东,其网站为html页面,然后通过渲染进行的。直接爬取该网站,则获取不到有效数据(通过查看其页面源码,没有相关数据)。可以通过selenium,等待页面渲染后,再抓取页面数据。

原文地址:https://www.cnblogs.com/xuehaiwuya0000/p/11528355.html