记录一次爬虫方法

  虽然现在看来没有什么难度,但是当时第一次的时候没有找到方法,现在把整个过程记录一下供自己日后参考,也给初学者一个参考。话不多说,开干。

  目的:爬取一下物联网卡的流量和到期时间等参数,这样可以提前提醒自己避免流量用完带来的影响。

  

  分析:

  1、网站有一个登录界面,所有的请求必须要登录后才能访问,因此我们先要模拟登录。

  2、登录成功后需要访问流量卡界面,因此需要模拟请求得到流量卡信息(一般都是动态加载的数据,如果是静态页面就直接解析静态页面数据)

  

  一、开始 模拟登录:

  1、打开登录网址 邮件检查可以看到有个提交函数

2、,找到函数实现 可以看见是一个post请求将有户名密码传入后台服务器。服务器返回一个url跳转到主页。

3、使用postman来验证,可以看见登录成功

二、开始寻找获取流量卡信息接口

  1、按F12 点击network XHR 点击请求按钮

  2、可以看见有个请求链接,点击可以看见是一个json的数据,里面正是我们要的数据。

但是直接复制连接不能得到数据,会返回一个找不到404错误。

3、点开heards,拉到底可以看见一个formdata

 4、使用postman验证 可以看到返回我们想要的数据

最后使用scarpy框架来爬取数据

最后贴一张scrapy的安装包结构,从下网上安装 

  

到此整个爬虫结束。

原文地址:https://www.cnblogs.com/tpcwlilacfover/p/15015638.html