python爬虫01在Chrome浏览器抓包

尽量不要用国产浏览器,很多是有后门的

chrome是首选

百度

按下F12

element标签下对应的HTML代码

点击Network,可以看到很多请求

HTTP请求的方式有好几种,GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE

不过最常见的就是GET和POST请求

get:

https://www.baidu.com/s?wd=内容

post:

信息提交 注册 登陆

post的参数不会直接放在URL上,会以Form表单的形式将数据提交给服务器

可以发现,

GET请求把请求参数都暴露在URL上

而POST请求的参数放在request body里面

POST请求方式还对密码参数加了密

请求头

Pequest Header

我们在做 HTTP 请求的时候

 

除了提交一些参数之外

 

我们还有定义一些 HTTP 请求的头部信息

 

比如 Accept、Host、cookie、User-Agent等等

 

这些参数也是我们在做爬虫要用到

 

通过这些信息,欺骗服务器,告诉它我们是正规请求

 

比如

 

我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话

 

User-Agent 告诉服务器我们是浏览器请求的

响应

这些 404 啊,200啊,301啊,502啊

 

都是服务器的响应码

 

一般服务器给我们返回 200

 

那就说明

 

我们成功请求了

响应头

这个头主要是告诉我们数据以什么样的形式展现

 

告诉我们cookie的设置

 

 

响应体

 

说白了,就是服务器返回给我们的数据

 

我们点击 Response 就可以看到相关的数据了

对于不同的请求

 

我们获取到的数据是不一样的

 

除了 HTML的,也有 JSON 的

 

图片二进制数据等等

 

可以针对不同的情况

 

用不同的手段来解析这些数据



所谓抓包

 

就是我们摸清了浏览器里面的套路

 

知道它是怎么搞的

 

那么通过我们的请求

 

GET 请求也好

 

POST 请求也罢

 

只要知道请求方式

 

只要知道请求参数

 

只要知道请求头定义

 

只要知道怎么拿到返回的数据

原文地址:https://www.cnblogs.com/hrnn/p/13304184.html