Python之令人心烦意乱的字符编码与转码

ASC-II码：英文1个字节（8 byte），不支持中文；

高大上的中国，扩展出自己的gbk、gb2312、gb2318等字符编码。

由于各个国家都有自己的编码，于是就需要统一的编码形式用于国际流传，防止乱码，就有了万国码；

万国码：unicode（默认无论中文还是英文都是至少占用2个字节），为了解决占用字节变多，占用空间增倍的情况，又衍生了扩展集utf-8；

UTF-8：原有的ASC-II码中内容仍用1个字节，欧洲国家的字符用2个字节，汉字等其他的字符用3个字节

decode: 解码到unicode，encode: 将unicode编码到其他格式（如，utf-8，gbk等）

日常中如果我们想要读取其他国家的代码时，先解码（decode）为万国码，再编码（encode）为我们适用的编码形式读取；

比如：GBK到uff-8，先将GBK（decode）到 unicode，再（encode）到utf-8；