处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题

处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题

错误信息：

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence

这是因为遇到了非法字符，例如：全角空格往往有多种不同的实现方式，比如xa3xa0，或者xa4x57，
这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格
真正的全角空格是xa1xa1，因此在转码的过程中出现了异常。
而之前在处理数据库中的数据时，遇到了非法空格问题导致无法正确解析数据。

解决办法：

#将获取的字符串str做decode时，指明ignore，会忽略非法字符,

#当然对于gbk等编码，处理同样问题的方法是类似的

strTest = str.decode('utf-8', 'ignore')

return strTest

补充：

默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?号取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/zhbzz2007/p/4960440.html