Python之令人心烦意乱的字符编码与转码

ASC-II码:英文1个字节(8 byte),不支持中文;

高大上的中国,扩展出自己的gbk、gb2312、gb2318等字符编码。 

由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传,防止乱码,就有了万国码;

万国码:unicode(默认无论中文还是英文都是至少占用2个字节),为了解决占用字节变多,占用空间增倍的情况,又衍生了扩展集utf-8;

UTF-8:原有的ASC-II码中内容仍用1个字节,欧洲国家的字符用2个字节,汉字等其他的字符用3个字节


decode: 解码到unicode,encode: 将unicode编码到其他格式(如,utf-8,gbk等)

日常中如果我们想要读取其他国家的代码时,先解码(decode)为万国码,再编码(encode)为我们适用的编码形式读取;

比如:GBK到uff-8,先将GBK(decode)到 unicode,再(encode)到utf-8;

原文地址:https://www.cnblogs.com/feigebaqi/p/9138218.html