网站爬取-案例四:知乎抓取(COOKIE登录抓取个人中心)(第二卷)

接着上卷来分析,作为开发人员我们都知道,登录是一个想指定URL发送POST请求的过程,所以我们需要找到请求的URL,以及字段,先用一个错误账号和密码做一下尝试,如果是正确的话会直接跳转到别的页面,这样COOKIE就会刷新

很明显拿到了URL看的出来这是手机号的方式进行登录,看下数据

_xsrf保证请求得安全性防止攻击

再用EMAIL试一下

看下参数

效果相似

这样请求的URL以及字段都找到了

现在我们需要判断请求类型,先通过源码找一下_xsrf

现在我们开始编译

兼容写法引入COOKLELIB

 登陆请求

获取_xsrf

正则获取

看下结果

这次可以请求,但是这里需要做个登陆,我们这里用下REQUESTS里的SESSION,加大效率

这样不用一次次请求了

全部换掉

调用方法用于存储

保存到本地,以后就可以使用了

 加一步异常处理

读写下页面

获取了页面

再加一步邮箱验证

最后一步加一步判断用户是否登陆

原文地址:https://www.cnblogs.com/woshiruge/p/8452647.html