Python爬虫学习(一)

一、了解爬虫

  • 通过程序自动的获取web页面数据

主要步骤:

  1. 发送request
  2. 获得response
  3. 解析数据
  4. 保存数据

二、Request和Response

1、Request:浏览器发送消息给网址所在的服务器

包含内容:

  •   请求方式:post(请求的数据存放在头部)和get(请求的数据在url中)
  •        请求url--网址:协议、存有该资源的主机ip地址、主机资源的具体地址,如目录和文件名
  •        请求头:包含请求时的头部信息,如:User-Agent,host,cookies等
  •        请求体:携带的数据

2、Response:服务器接收到浏览器发来的请求,根据请求,做相应的处理,传回给浏览器

包含内容:

  • 第一行:状态行
  • 响应状态
  • 响应头
  • 响应体:请求的资源内容

三、如何解析数据

1、Json解析

2、正则表达式处理

3、Beautiful Soup解析处理

4、PyQuery解析处理

5、XPath解析处理

原文地址:https://www.cnblogs.com/cola-1998/p/12827192.html