爬虫编码问题

网站名称:

http://yw.eywedu.com/24/

使用requests 抓取的网页编码格式 为GB2313

使用 response.text 乱码

使用response.content.decode('utf8') 或者 GBK 解码 报错

解决办法:

        while True:
            ht_response = requests.get(url=url, headers=self.headers, proxies=proxies)
            if ht_response.status_code != 200:
                continue
            else:
                break
      
     # 设置response 的编码格式为GBK ht_response.encoding = 'GBK' response=ht_response.text

查看response的编码格式

 encodings = requests.utils.get_encodings_from_content(resp.text)
 print(encodings)
原文地址:https://www.cnblogs.com/lqn404/p/12911409.html