爬虫基本原理

一、基本流程

  1.发起请求:通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应

  2.解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析;可能是Json,可以直接转换为Json对象解析;可能是二进制数据,可以保存或者进一步处理

  3.获取响应内容:如果服务器能正常响应,会得到一个response,response的内容可能有HTML,Json字符串,二进制数据(图片、视频)等类型

  4.保存数据:可以保存为文本,也可以保存在数据库

二、Request

  1.请求方式:

    (1)GET:请求的参数都在网址内

    (2)POST:不在网址内

  2.URL

  3.请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等信息

  4.请求时额外携带的数据,如表单提交时的表单数据

三、Response

  1. 响应状态:200为正常状态、404未找到页面
  2. 响应头:内容类型、长度、服务器信息、设置Cookie
  3. 响应体:包含HTML、图片二进制

 

  

原文地址:https://www.cnblogs.com/yejiang/p/10293798.html