python爬虫:urlparse模块拆分url

 1 from urlparse import urlparse
 2 
 3 parsed = urlparse('url地址')
 4 
 5 print 'scheme  :'+ parsed.scheme   #网络协议
 6 
 7 print 'netloc  :'+ parsed.netloc   #服务器位置(也可呢能有用户信息)
 8 
 9 print 'path    :'+ parsed.path     #网页文件在服务器中存放的位置
10 
11 print 'params  :'+ parsed.params   #可选参数
12 
13 print 'query   :'+ parsed.query    #连接符(&)连接键值对
14 
15 print 'fragment:'+ parsed.fragment #拆分文档中的特殊猫
16 
17 print 'username:'+ parsed.username #用户名
18 
19 print 'password:'+ parsed.password #密码
20 
21 print 'hostname:'+ parsed.hostname #服务器名称或者地址
22 
23 print 'port    :', parsed.port     #端口(默认是80

urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。

urlparse.urlparse(urlstring[, scheme[, allow_fragments]])

        将urlstring解析成6个部分,它从urlstring中取得URL,并返回元组 (scheme, netloc, path, parameters, query, fragment),但是实际上是基于namedtuple,是tuple的子类。它支持通过名字属性或者索引访问的部分URL,每个组件是一串字符,也有可能是空的。组件不能被解析为更小的部分,%后面的也不会被解析,分割符号并不是解析结果的一部分,除非用斜线转义,注意,返回的这个元组非常有用,例如可以用来确定网络协议(HTTP、FTP等等 )、服务器地址、文件路径,等等。

 

1 >>> import urlparse
2 >>> url=urlparse.urlparse('http://www.baidu.com/index.php?username=guol')
3 >>> print url
4 ParseResult(scheme='http', netloc='www.baidu.com', path='/index.php', params='', query='username=guol', fragment='')
5 >>> print url.netloc
6 www.baidu.com
7 >>>

urlparse.urlunparse(parts)

 

        从一个元组构建一个url,元组类似urlparse返回的,它接收元组(scheme, netloc, path, parameters, query, fragment)后,会重新组成一个具有正确格式的URL,以便供Python的其他HTML解析模块使用。

 

1 >>> import urlparse
2 >>> url=urlparse.urlparse('http://www.baidu.com/index.php?username=guol')
3 >>> print url
4 ParseResult(scheme='http', netloc='www.baidu.com', path='/index.php', params='', query='username=guol', fragment='')
5 >>> u=urlparse.urlunparse(url)
6 >>> print u
7 http://www.baidu.com/index.php?username=guol

urlparse.urlsplit(urlstring[, scheme[, allow_fragments]])

 

           主要是分析urlstring,返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。allow_fragments为False时,该元组的组后一个项目总是空,不管urlstring有没有片段,省略项目的也是空。urlsplit()和urlparse()差不多。不过它不切分URL的参数。适用于遵循RFC2396的URL,每个路径段都支持参数。这样返回的元组就只有5个元素。

 

1 >>> import urlparse
2 >>> url=urlparse.urlparse('http://www.baidu.com/index.php?username=guol')
3 >>> print url
4 ParseResult(scheme='http', netloc='www.baidu.com', path='/index.php', params='', query='username=guol', fragment='')
5 >>> url=urlparse.urlsplit('http://www.baidu.com/index.php?username=guol')
6 >>> print url
7 SplitResult(scheme='http', netloc='www.baidu.com', path='/index.php', query='username=guol', fragment='')

urlparse.urlunsplit(parts)

 

           urlunsplit使用urlsplit()返回的值组合成一个url

urlparse.urljoin(base, url[, allow_fragments])

           urljoin主要是拼接URL,它以base作为其基地址,然后与url中的相对地址相结合组成一个绝对URL地址。函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是,如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。

1 >>> import urlparse
2 >>> urlparse.urljoin('http://www.oschina.com/tieba','index.php')
3 'http://www.oschina.com/index.php'
4 >>> urlparse.urljoin('http://www.oschina.com/tieba/','index.php')
5 'http://www.oschina.com/tieba/index.php'
原文地址:https://www.cnblogs.com/yizhenfeng168/p/6999514.html