Python爬虫学习（一）

Python爬虫学习（一）

一、了解爬虫

通过程序自动的获取web页面数据

主要步骤：

发送request
获得response
解析数据
保存数据

二、Request和Response

1、Request：浏览器发送消息给网址所在的服务器

包含内容：

　　请求方式：post(请求的数据存放在头部)和get(请求的数据在url中)
请求url--网址：协议、存有该资源的主机ip地址、主机资源的具体地址，如目录和文件名
请求头：包含请求时的头部信息，如：User-Agent，host，cookies等
请求体：携带的数据

2、Response：服务器接收到浏览器发来的请求，根据请求，做相应的处理，传回给浏览器

包含内容：

第一行：状态行
响应状态
响应头
响应体：请求的资源内容

三、如何解析数据

1、Json解析

2、正则表达式处理

3、Beautiful Soup解析处理

4、PyQuery解析处理

5、XPath解析处理

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/cola-1998/p/12827192.html