python爬虫学习之requests

python爬虫学习之requests_01

1、Requests库的get()方法

　　requests.get(url,params=None,**kwargs)

　　　　url：拟获取页面上的url链接

　　　　params：url中的额外参数，字典或字节流格式，可选

　　　　**kwargs：12个控制访问的参数

import requests
r = requests.get('https://www.baidu.com')
#检测状态请求的状态码 200则成功，反之则失败
print(r.status_code)
#检测r的类型
type(r)
#返回get请求页面的头部信息
r.headers

　　Response对象的属性

　　Response的编码

　　r.encoding：如果header中不存在charset,则认为编码为ISO-8859-1

　　r.apparent_encoding：根据网页内容分析出的编码方式

　　Requests库的异常

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()#如果状态不是200，则引发 HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '产生异常'
if __name__ == '__main__':
    url = 'http://www.baidu.com'
    print(getHTMLText(url))

2、HTTP协议与requests库的方法

　　requests库的七个方法：

　　HTTP协议：　　　　

　　　　HTTP,Hypertext Transfer Protocol，超文本传输协议。

　　　　HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

　　　　HTTP协议采用URL作为定位网络资源的标识。

　　URL格式如下

　　　　http://host[:port][path]

　　　　host：合法的Internet主机域名或ip地址

　　　　port：端口号，缺省端口为80

　　　　path：请求资源的路径

　　理解URL：

　　　　URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

　　HTTP协议对资源的操作:

　　理解PATCH和PUT的区别：

　　　　假设URL位置有一组数据UserInfo(用户信息)，包括Username，UserID等20个字段

　　　　需求：用户修改Username,其他的不变

　　　　*采用PATCH,仅向URL提交Username的局部更新请求。

　　　　*采用PUT，必须将所有的20个字段一并提交到URL，未提交字段被删除。

　　　　　　比较得知：PATCH的最主要好处：节省网络带宽。

　　requests库的post()或put()方法：

　　　　如果想URL POST一个字典，则会自动编码为form（表单）.

　　　　如果想URL POST一个字符串，则会自动编码为data.

　　3、详解requests的七个方法

　　　　1)、requests.request(method,url,**kwargs)

　　　　　　method：请求方式，对应get/put/post等其中

　　　　　　url：拟获取页面的url链接

　　　　　　**kwargs：控制访问参数，共13个

　　　　　　**kwargs：控制访问参数，均为可选项

　　　　　　　　1)、params：字典或字节序列，作为参数增加到url中

kv = {'key1':'value1'.'key2':'value2'}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
#运行结果为https://python123.io/ws?key1=value1&key2=value2

　　　　　　　　2)、data:字典、字节序列或文件对象，作为Request的内容

　　　　　　　　3)、json：JSON格式的数据，作为Request的内容

import requests
#json
kv = {'key1':'value1'}
r = requests.request('POST','http://python123.io/ws',json=kv)

　　　　　　　　4)、headers：字典，HTTP定制头

#headers
hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws',header=hd)

　　　　　　　　5)、cookies：字典或CookieJar，Request中的cookie

　　　　　　　　6)、auth：元组，支持HTTP认证功能

　　　　　　　　7)、files：字典类型，传输文件

#files
fs = {'file':open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',files=fs)

　　　　　　　　8)、timeout：设定超时时间，秒为单位　　　　

#timeout
r = requests.request('GRT','http://www.baidu.com',timeout=10)
#如果超过访问时间则会返回一个timeout的异常

　　　　　　　　9)、proxies：字典类型，设定访问代理服务器，可以增加登陆认证（可有效隐藏用户爬取网页的源的ip地址信息）

#proxies
pxs = {'http': 'http://user:pass@10.10,10,1:1234',
        'https': 'http://10,10.10.1:4321'}
r = requests.request('GET','http://www.baidu.com',proxies=pxs)

　　　　　　　　10)、allow_redirects：True/False，默认为True，重定向开关

　　　　　　　　11)、stream：True/False，默认为True，获取内容立即下载开关

　　　　　　　 12)、verify：True/False，默认为True，认证SSL证书开关

　　　　　　　　13)、cert：本地SSL证书路径

　　　　2、requests.get(url,params=None,**kwargs)

　　　　　　url：拟获取页面上的url链接

　　　　　　params：url中的额外参数，字典或字节流格式，可选

　　　　　　**kwargs：12个控制访问的参数

　　　　3、requests.head(url,**kwargs)

　　　　　　url：拟获取页面上的url链接

　　　　　　**kwargs：13个控制访问的参数

　　　　4、requests.post(url,data=None,json=None,**kwargs)

　　　　　　url：拟获取页面上的url链接

　　　　　　data:字典、字节序列或文件对象，作为Request的内容

　　　　　　json：JSON格式的数据，作为Request的内容

　　　　　　**kwargs：11个控制访问的参数

　　　　5、requests.put(url,data=None,**kwargs)

　　　　　　url：拟获取页面上的url链接

　　　　　　data:字典、字节序列或文件对象，作为Request的内容

　　　　　　**kwargs：12个控制访问的参数

　　　　6、requests.patch(url,data=None,**kwargs)　　　　

　　　　　　url：拟获取页面上的url链接

　　　　　　data:字典、字节序列或文件对象，作为Request的内容

　　　　　　**kwargs：12个控制访问的参数

　　　　7、requests.delete(url,**kwargs)

　　　　　　url：拟获取页面上的url链接

　　　　　　**kwargs：13个控制访问的参数