python之urllib

     简单的web应用包括使用被称为url(统一资源定位器,uniform resource locator)的web地址

这个地址用来在web上定位一个文档,或调用一个CGI程序来为你的客户端产生一个文档。

python核心编程中介绍了urlparse,适用与python2.x,然3.x略有不同之处

urlparse模块

from urllib import parse

urltup = parse.urlparse('http://www.cnblogs.com/changbo/p/5652331.html')
print(urltup)

输出结果如图所示

我们看到解析出一个6元组,各个元素含义如下

(网络协议, 域名(服务器位置), 资源位置, 可选参数, 连接符(&)链接键值对, 拆分文档中特殊锚)

urlunparse与其功能相反,它拼合一个urltuple,接上,代码如下

urlstr = parse.urlunparse(urltup) 
print(urlstr)

显示结果如下

在需要多个相关的URL时我们需要使用urljoin()功能,如在一个web页面中

生成一系列页面的URL。

usrle = parse.urljoin('http://www.cnblogs.com/changbo/p/5652331.html', '5014247.html' )
print(usrle)

显示结果如下

urlparse模块核心函数

 

END!

原文地址:https://www.cnblogs.com/changbo/p/5676393.html