urlparse 模块

urlpasrse 模块提供了操作 URL 字符串的基本功能。这些功能包括 urlparse(), urlunparse()和 urljoin().

urlparse()将 URL 字符串拆分成如上所描述的一些主要部件。语法结构如下:
urlparse(urlstr, defProtSch=None, allowFrag=None)

from urllib.parse import urlparse

>>>urlparse('http://www.python.org/doc/FAQ.html')
('http', 'www.python.org', '/doc/FAQ.html', '', '', '')

urlunparse()的功能与 urlpase()完全相反—它拼合一个 6-元组(prot_sch, net_loc, path,
params, query, frag)- urltup,它可能是一个 URL 经 urlparse()后的输出返回值。于是,我们可
以用如下方式表示:
urlunparse(urlparse(urlstr)) = urlstr

urljoin:

在需要多个相关的 URL 时我们就需要使用 urljoin()的功能了,如,在一个 Web 页中生成的一系
列页面的 URL。Urljoin()的语法是:
urljoin(baseurl, newurl, allowFrag=None)

将 URL 的基部件 baseurl 和 newurl 拼合成一个完整的 URL;allowFrag 的作用和 urlpase()中相同。

>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html', ... 'current/lib/lib.htm')

'http://www.python.org/doc/current/lib/lib.html'