百度URL链接中文转码

百度搜索链接规则为:

http://www.baidu.com/s?wd=[搜索词目]&cl=3

有多个搜索词通过加号进行链接:

http://www.baidu.com/s?wd=keyword1+keyword2&cl=3

如果关键词中有中文的话,百度就会将其转码为%开始的编码。常用的编码格式主要有utf-8gbk两种,二者的转码结果是不一样的,下面通过Pythonurllib库进行测试。

# 百度URL链接转码
import urllib
keyword = '测试'
kwd = urllib.parse.quote(keyword, encoding = 'utf-8', errors = 'replace')
print(kwd)
kwd = urllib.parse.quote(keyword, encoding = 'gbk', errors = 'replace')
print(kwd)

结果如下:

%E6%B5%8B%E8%AF%95
%B2%E2%CA%D4

对比浏览器的网址,可知百度采用的是utf-8编码。

参考链接1:关于url链接包含中文编码问题

参考链接2:百度搜索链接中的汉字转码

原文地址:https://www.cnblogs.com/hider/p/11649040.html