爬虫登陆验证过程

混合模式

结合二、三两大步,通过模拟点击快速拿到cookie,虽然效率低,但可以减少数据包分析的时间以及解决搞不定ajax登陆验证的烦恼,然后继续用urllib2拼接cookie继续快速获取数据。分下面两步:

a. 从selenium中拿到cookie

b. 添加cookie给urllib2使用

方法1:使用CookieJar,可参考《Creating Custom Cookies for HTTP Requests

方法2:直接拼凑一个名称是"Cookie"的header。

五、全文总结

本文以python为编程语言介绍了 爬虫登陆验证过程可以使用的两种方法:一个是数据包分析,另外一个是模拟点击。综合考虑开发效率,建议先用模拟点击的方法通过登陆验证,成功拿到 cookie之后,拼凑一个Cookie-header,传递给urllib2进行常规调用。

原文地址:https://www.cnblogs.com/timssd/p/5098137.html