PYTHON 爬虫笔记二:Urllib库基本使用

知识点一：urllib的详解及基本使用方法

　　一、基本介绍

　　　　　　urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了，我们可以利用它来抓取远程的数据进行保存。

　　二、什么是Urllib

　　　　　　Python内置的Http请求库，包含四个模块：

　　　　　　　　urllib.request 请求模块　　（模拟浏览器，可以用来发送request和获取request的结果）

　　　　　　　　urllib.error 异常处理模块　　（包含了urllib.request产生的异常）

　　　　　　　　urllib.parse url解析模块　　工具模块（用来解析和处理UR），如：拆分、合并

　　　　　　　　urllib.robotparser robots.txt 解析模块（用来解析页面的robots.txt文件）　

　　三、urllib模块的基本使用

　　　　1.urlopen方法

　　　　　　urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理 authenticaton （授权验证）， redirections （重定向)， cookies (浏览器Cookies）以及其它内容。

基本方法:
　　urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

-         url:  需要打开的网址

-         data：Post提交的数据

-         timeout：设置网站的访问超时时间

　　直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，需要decode（）解码，转换成str类型。

　　　　urlopen返回对象提供方法：

　　　　- read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作

　　　　- info()：返回HTTPMessage对象，表示远程服务器返回的头信息

　　　　- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

　　　　- geturl()：返回请求的url

import urllib.request

request_url = 'http://www.baidu.com'           # 需要请求的URL地址
response = urllib.request.urlopen(request_url) # 发起请求
print(response.read().decode('utf-8'))         # 打印响应的文本，并进行UTF-8解码

　　　　参数管理

　　　　　　data参数

　　　　　　data 参数是可选的，如果要添加 data ，它要是字节流编码格式的内容，即 bytes 类型，通过 bytes() 函数可以进行转化，另外如果你传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST 。

import urllib.parse  
import urllib.request  

data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding=  'utf8')  
response = urllib.request.urlopen('http://httpbin.org/post', data=data)  
print(response.read())

　　　　　　在这里我们传递了一个参数 word ，值是 hello 。它需要被转码成 bytes （字节流）类型。其中转字节流采用了 bytes() 方法，第一个参数需要是 str (字符串)类型，

　　　　　　　　需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式，在这里指定为 utf8 。

　　　　　　提交的网址是 httpbin.org ，它可以提供 HTTP 请求测试。 http://httpbin.org/post 这个地址可以用来测试 POST 请求，它可以输出请求和响应信息，其中就包含我们传递的 data 参数。

 1 b'{
 2 "args":{},
 3 "data":"",
 4 "files":{},
 5 "form":{"word":"hello"},
 6 "headers":{"Accept-Encoding":"identity",
 7 "Connection":"close",
 8 "Content-Length":"10",
 9 "Content-Type":"application/x-www-form-urlencoded",
10 "Host":"httpbin.org",
11 "User-Agent":"Python-urllib/3.4"
12 },
13 "json":null,
14 "origin":"132.196.111.200",
15 "url":"http://httpbin.org/post"}
'

运行结果

　　　　　我们传递的参数出现在了 form 中，这表明是模拟了表单提交的方式，以 POST 方式传输数据。

　　　　　　timeout参数

　　　　　　　　timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求。

import urllib.request  

response = urllib.request.urlopen("http://httpbin.org/get",timeout=1)  
print(response.read())

1 During handling of the above exception, another exception occurr
2 ed:
3 Traceback (most recent call last): File "/var/py/python/urllibte
4 st.py", line 4, in <module> response = urllib.request.urlopen('h
5 ttp://httpbin.org/get', timeout=1)
6 ...
7 urllib.error.URLError: <urlopen error timed out>

运行结果

　　　　　　在这里我们设置了超时时间是1秒，程序1秒过后服务器依然没有响应，于是抛出了 urllib.error.URLError 异常，错误原因是 timed out 。因此我们可以通过设置这个超时时间来控制

　　　　　　　　一个网页如果长时间未响应就跳过它的抓取，利用 try,except 语句就可以实现这样的操作。

import urllib.request
import  socket
import urllib.error

try:
    response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
    if  isinstance(e.reason, socket.timeout):
            print("Time out!")

　　　　　　在这里我们请求了 http://httpbin.org/get 这个测试链接，设置了超时时间是0.1秒，然后捕获了 urllib.error.URLError 这个异常，然后判断异常原因是超时异常，就得出它确实是因为超时而报错，

　　　　　　　　打印输出了 TIME OUT ，当然你也可以在这里做其他的处理。

　　　　　　常理来说，0.1秒内基本不可能得到服务器响应，因此输出了 TIME OUT 的提示。这样，我们可以通过设置 timeout 这个参数来实现超时处理，有时还是很有用的。

　　　　2.request方法的使用

　　　　　　由上我们知道利用 urlopen() 方法可以实现最基本的请求发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入 headers 等信息，我们就可以利用更强大的 Request 类来构建一个请求。

　　　　　　首先我们用一个实例来感受一下 Request 的用法:

import urllib.request

request =urllib.request.Request("https://www.baidu.com")
response = urllib.request.urlopen(request)
print(response.read().decode("utf-8"))

　　　　　　可以发现，我们依然是用 urlopen() 方法来发送这个请求，只不过这次 urlopen() 方法的参数不再是一个URL，而是一个 Request ，通过构造这个这个数据结构，一方面我们可以将请求独立成一个对象，

　　　　　　　　另一方面可配置参数更加丰富和灵活。
　　　　　　下面我们看一下 Request 都可以通过怎样的参数来构造，它的构造方法如下。

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
　　　　 ---使用request（）来包装请求，再通过urlopen（）获取页面。

　　　　　　第一个参数是请求链接，这个是必传参数，其他的都是可选参数。

　　　　　　data ：参数如果要传必须传 bytes （字节流）类型的，如果是一个字典，可以先用 urllib.parse.urlencode() 编码。

　　　　　　headers：参数是一个字典，你可以在构造 Request 时通过 headers 参数传递，也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-
　　　　　　Agent：是 Python-urllib ，你可以通过修改它来伪装浏览器，比如要伪装火狐浏览器，你可以把它设置为 Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

　　　　　　origin_req_host：指的是请求方的 host 名称或者 IP 地址。

　　　　　　unverifiable：指的是这个请求是否是无法验证的，默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True 。

　　　　　　method：是一个字符串，它用来指示请求使用的方法，比如 GET ， POST ， PUT 等等。
　　　　下面我们传入多个参数构建一个 Request 来感受一下：

from urllib import request,parse

url = "http://httpbin.org/post"
headers = {
    #伪装一个火狐浏览器
    "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    "host":'httpbin.org'
}
dict = {
    "name":"Germey"
}

data = bytes(parse.urlencode(dict),encoding="utf8")
req = request.Request(url=url,data=data,headers=headers,method="POST")
response = request.urlopen(req)
print(response.read().decode("utf-8"))

　　　　另一种方式：

from urllib import request,parse

url = "http://httpbin.org/post"
dict = {
    "name":"Germey"
}

data = bytes(parse.urlencode(dict),encoding="utf8")
req = request.Request(url=url,data=data,method="POST")
req.add_header('User-Agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
response = request.urlopen(req)
print(response.read().decode("utf-8"))

　　　　在这里我们通过四个参数构造了一个 Request ， url 即请求链接，在 headers 中指定了 User-Agent 和 Host ，传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流，另外指定了请求方式为 POST 。

　　运行结果：

 1 {
 2 "args":{},
 3 "data":"",
 4 "files":{},
 5 "form":{"name":"Germey"},
 6 "headers":{"Accept-Encoding":"identity",
 7 "Connection":"close",
 8 "Content-Length":"11",
 9 "Content-Type":"application/x-www-form-urlencoded",
10 "Host":"httpbin.org",
11 "User-Agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"},
12 "json":null,
13 "origin":"139.196.111.200"
14 ,"url":"http://httpbin.org/post"
15 }

运行结果测试

　　　　另外 headers 也可以用 add_header() 方法来添加。

req = request.Request(url=url, data=data, method='POST')

req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)')

　　　　如此一来，我们就可以更加方便地构造一个 Request ，实现请求的发送。

　　　　另一实例：

import urllib.request


url ='http://www.lagou.com/zhaopin/Python/?labelWords=label'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': 'http://www.lagou.com/zhaopin/Python/?labelWords=label',
    'Connection': 'keep-alive',
    "host":'www.lagou.com'
}

req = urllib.request.Request(url, headers=headers)
page = urllib.request.urlopen(req).read()
print(page.decode())

　　　　用来包装头部的数据：

　　　　- User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言

　　　　- Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的

　　　　- Connection：表示连接状态，记录Session的状态。

　　　　3.响应

　　　　　　a.响应类型实例：

import urllib.request

response=urllib.request.urlopen('https://www.python.org')
print(type(response))

　　　　　　　　输出结果为：

<class 'http.client.HTTPResponse'>

　　　　　　b.状态码，响应头实例：

import urllib.request

response = urllib.request.urlopen('http://www.python.org')
print(response.status)  #正确返回200 
print(response.getheaders())    #返回请求头
print((response.getheader('Servers'))

　　　　　　　　输出结果：

200
[('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('x-xss-protection', '1; mode=block'), ('X-Clacks-Overhead', 'GNU Terry Pratchett'), 
('Via', '1.1 varnish'), ('Content-Length', '48730'), ('Accept-Ranges', 'bytes'), ('Date', 'Thu, 31 May 2018 08:49:02 GMT'), ('Via', '1.1 varnish'), ('Age', '2261'), ('Connection', 'close'), 
('X-Served-By', 'cache-iad2127-IAD, cache-nrt6138-NRT'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '1, 40'), ('X-Timer', 'S1527756542.308043,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]

　　　　3.handler（urllib.request高级特性）

　　　　　大家有没有发现，在上面的过程中，我们虽然可以构造 Request ，但是一些更高级的操作，比如 Cookies 处理，代理该怎样来设置？
　　　　　接下来就需要更强大的工具 Handler 登场了。

　　　　　　简而言之你可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情。

　　　　首先介绍下 urllib.request.BaseHandler ，它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法，例
　　　　　　如 default_open() 、 protocol_request() 等。
　　　　接下来就有各种 Handler 类继承这个 BaseHandler ，列举如下：

HTTPDefaultErrorHandler 用于处理HTTP响应错误，错误都会抛出 HTTPError 类型的异常。

HTTPRedirectHandler 用于处理重定向。

HTTPCookieProcessor 用于处理 Cookie 。

ProxyHandler 用于设置代理，默认代理为空。

HTTPPasswordMgr 用于管理密码，它维护了用户名密码的表。

HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。另外还有其他的 Handler ，可以参考官方文档。

　　它们怎么来使用，不用着急，下面会有实例为你演示。
　　另外一个比较重要的就是 OpenerDirector ，我们可以称之为 Opener ，我们之前用过 urllib.request.urlopen() 这个方法，实际上它就是一个 Opener 。
　　那么为什么要引入 Opener 呢？因为我们需要实现更高级的功能，之前我们使用的 Request 、 urlopen() 相当于类库为你封装好了极其常用的请求方法，利用它们两个我们就可以完成基本的请求，但是现在不一样了，

　　　　我们需要实现更高级的功能，所以我们需要深入一层，使用更上层的实例来完成我们的操作。所以，在这里我们就用到了比调用 urlopen() 的对象的更普遍的对象，也就是 Opener 。

　　Opener 可以使用 open() 方法，返回的类型和 urlopen() 如出一辙。那么它和 Handler 有什么关系？简而言之，就是利用 Handler 来构建 Opener 。

　　　实例认证：

import urllib.request
auth_handler = urllib.request.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
                          uri='https://mahler:8092/site-updates.py',
                          user='klem',
                          passwd='kadidd!ehopper')
opener = urllib.request.build_opener(auth_handler)
urllib.request.install_opener(opener)
urllib.request.urlopen('http://www.example.com/login.html')

　　　　此处代码为实例代码，用于说明 Handler 和 Opener 的使用方法。在这里，首先实例化了一个 HTTPBasicAuthHandler 对象，然后利用 add_password() 添加进去用户名和密码，相当于建立了一个处理认证的处理器。
　　　　接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ，那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接，就可以完成认证了。

　　　　　　a.代理

import urllib.request

proxy_handler =urllib.request.ProxyHandler({

    'http':'http://127.0.0.1:4623',
    'https':'https://127.0.0.1:4623'

})

opener =urllib.request.build_opener(proxy_handler)
response= opener.open('http://www.baidu.com')

print(response.read())

　　　　　　在这里使用了 ProxyHandler ， ProxyHandler 的参数是一个字典，key是协议类型，比如 http 还是 https 等，value是代理链接，可以添加多个代理。
　　　　　　然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ，然后发送请求即可。

　　　　　　b.cooike设置（用来维持登陆状态）

import http.cookiejar,urllib.request

cookie = http.cookiejar.CookieJar()
handler=urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')

for item in cookie:

    print(item.name+"="+item.value)

　　　　　　　　首先我们必须声明一个 CookieJar 对象，接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ，最后利用 build_opener 方法构建出 opener ，执行 open() 即可。　　　　　

　　　　　　　　运行结果：

BAIDUID=A79E42193AF3BFA2D5EC5E46EB94667E:FG=1
BIDUPSID=97EE42193AF3BFA2D5EC5E96EB54667E
H_PS_PSSID=1953_21099_26950_26431_20930
PSTM=1529797975
BDSVRTM=0
BD_HOME=0

　　　　　　可以看出输出了每一条 Cookie 的名称还有值。
　　　　　　不过既然能输出，那可不可以输出成文件格式呢？我们知道很多 Cookie 实际也是以文本形式保存的。
　　　　　　我们用下面的实例来感受一下：　

import http.cookiejar,urllib.request


filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

　　　　这时的 CookieJar 就需要换成 MozillaCookieJar ，生成文件时需要用到它，它是 CookieJar 的子类，可以用来处理 Cookie 和文件相关的事件，读取和保存 Cookie ，它可以将 Cookie 保存成 Mozilla 型的格式。
　　　　运行之后可以发现生成了一个 cookie.txt 文件。

　　　　结果如下：

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file! Do not edit.
.baidu.com TRUE / FALSE 3622386254 BAIDUID 05A
E39B5F56C1DEC474325CDA522D44F:FG=1
.baidu.com TRUE / FALSE 3622386254 BIDUPSID 05
AE39B5F56C1DEC474325CDA522D44F
.baidu.com TRUE / FALSE H_PS_PSSID 19638_1453
_17710_18240_21091_18560_17001_21191_21161
.baidu.com TRUE / FALSE 3622386254 PSTM 147490
2606
www.baidu.com FALSE / FALSE BDSVRTM 0
www.baidu.com FALSE / FALSE BD_HOME 0

　　　　另外还有一个 LWPCookieJar ，同样可以读取和保存 Cookie ，但是保存的格式和 MozillaCookieJar 的不一样，它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookie 。
　　　　那么在声明时就改为

cookie = http.cookiejar.LWPCookieJar(filename)

　　　　运行结果：

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="0CE9C56F598E69DB375B7C294AE5C591:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="208
4-10-14 18:25:19Z"; version=0
Set-Cookie3: BIDUPSID=0CE9C56F598E69DB375B7C294AE5C591; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-1
4 18:25:19Z"; version=0
Set-Cookie3: H_PS_PSSID=20048_1448_18240_17944_21089_21192_21161_20929; path="/"; domain=".baidu.com"; path_spec; domain_dot; di
scard; version=0
Set-Cookie3: PSTM=1474902671; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-14 18:25:19Z"; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

　　　　那么生成了 Cookie 文件，怎样从文件读取并利用呢？
　　　　下面我们以 LWPCookieJar 格式为例来感受一下：

import http.cookiejar,urllib.request

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))

　　　　前提是我们首先利用上面的方式生成了 LWPCookieJar 格式的 Cookie ，然后利用 load() 方法，传入文件名称，后面同样的方法构建 handler 和 opener 即可。
　　　　运行结果正常输出百度网页的源代码。

　　　　4.异常处理

　　　　　　a.　　例一

from urllib import reqeust,error

 try:
    response =request.urlopen('http://cuiqingcai.com/index.htm')　
except error.URLError as e:
    print(e.reason)

　　　　　　b.例二

from urllib import reqeust,error

try:
    response =request.urlopen('http://cuiqingcai.com/index.htm')　
except error.HTTPError as e:
    print(e.reason,e.code,e.headers,sep='
')　　
except error.URLError as e:
    print(e.reason)　　
else:
    print('Request Successfully')

　　　　　　c.例三

这都是我对自己学习过程的理解，如有错误请指出！我算一个小白了。