requests获取源代码时中文乱码问题

用request访问网站的时候,经常会碰到中文乱码的问题,常用的中文编码格式有"utf-8"和"gb2312"

处理步骤:

1.首先检查一下网页的编码格式,打开浏览器按F12,检查源码,点击元素(Elements),搜索 "charset " 可以看出来网页的编码格式:

例如下面的网页:

因此可知这个页面的编码格式是gb2312的.

2.用requests获取网页源码,加入编码方式

url = "http://www.baidu.com"

方法1:

html = requests.get(url).content.decode('gb2312')

方法2:

html = requests.get(url)

html.encoding='gb2312'

注意:我们可以用print(html.encoding) 的方式,打印出来网页的编码,但是有的时候打印出来的有可能是乱的,最好的方式还是查看网页的charset属性