python之字符编码与转码

说起python编码，真是句句心酸，今天终于是，终于梳理清楚了，下面我们就来一起揭开py编码的真相吧！

一，什么是编码？

其实基本概念很简单。我们都知道消息，那么消息就是人类所能理解的，简单易懂的存在，那么我将这种存在表示为“明文”。我们把写在纸张上的英文单词看做“明文”,那么对于不懂英文的人来说，就需要翻译成他所能看懂的语言格式。这种从明文到编码文件的转换称为“编码”,从编码文本转换成"明文"称为“解码”.

那么到底什么是编码呢？

其实计算机所能识别的所有的数据文件，都是以二进制文件存在的。也就是说计算机想要执行我们发出的指令，就必须把文件编码成二进制文件才能运行。意味着我们认识的字符要对应唯一的二进制数字，那么老外用0和1来表示二进制的数字。8位表示一组就能表示出256中不同的状态，每种状态就表示唯一的字符。英文只有26个字母，加上一个符号足够用了，每个0或者1表示一个比特位，约定8个比特位构成一个字节，而计算机需要用127个不同的字节来存储英文单词，这就叫ASCII编码。

扩展ANSI编码
    刚才说了，最开始，一个字节有八位，但是最高位没用上，默认为0；后来为了计算机也可以表示拉丁文，就将最后一位也用上了，
    从128到255的字符集对应拉丁文啦。至此，一个字节就用满了！

当计算机来到中国的时候，不识别中文，无法显示中文，而且一个字节的所有的状态位都被占满了，那怎么办呢？中国人直接把表示最后一位的阿拉丁文给干掉了，规定一个小于127的字符，并且意义和原来的一致，当两个大于127的字符连在一起的时候，就组成的汉字,这样大概能组成7000多汉字，这就叫“GB2312”,是对ASCII的中文扩展.

但是汉字太多了，BG2312也不够用啊，于是就规定只要第一个字节大于127的，就固定表示这是一个汉字的开始，不管后面跟的是不是扩展集里面的内容。这种扩展之后的方案叫做"GBK",GBK包含了所有GB2312的内容.同时也增加了20000多个汉字和符号.

那么在国内我们的问题解决了，同样的其他国家遇到的问题也解决了，但是国家和国家之间的语言交互还是无法识别的，怎么办呢？所以国际标准化组织就把所有国家的编码格式汇总到一起，搞了个号称标准编码的码表，叫UNICODE.

UNICODE是用两个字节来表示为一个字符，它总共可以组合出65535不同的字符，这足以覆盖世界上所有符号（包括甲骨文）

为啥又有一个UTF-8呢？

大家想一下，对于英文界的人来说，存储一个字母A用00010001就足够了，但是用上了UNICODE之后需要00000000 00010001表示才行，显得很浪费啊，基于此，科学家又提出了UTF-8，这是一个可变长度的编码，他可以用1~4个字节表示一个符号，可根据符号的长度而变化字节长度。当字节在ASCII范围内的时候，就表示一个字节，所以就兼容ASCII码的。

这样的好处：

虽然我们在内存中存储的数据都是unicode，但是当数据要保存到磁盘或者网络传输的时候，显然uft8就比较节省空间了。

unicode和utf-8的区别或者关系是什么呢？

unicode是内存编码表示规范方案，而utf-8是如何保存和传输unicode的实现方案。

在py2中有两种字符串类型，一种是str，一种是unicode，这两种数据类型在程序运行时的内存地址是什么呢？

>>> s1 = '电' #字符串

>>> print(type(s1))
<type 'str'> #类型
>>> print(repr(s1)) #repr查看内存存储内容
'xe7x94xb5' #内存中的内容
>>> s2 = u'电'
>>> print(type(s2))
<type 'unicode'> #unicode类型
>>> print(repr(s2))
u'u7535' #内存中的内存

内置函数repr可以帮我们在这里显示存储内容。原来，str和unicode分别存的是字节数据和unicode数据；那么两种数据之间是什么关心呢？如何转换呢?这里就涉及到编码(encode)和解码(decode)了

需知:

1.在python2默认编码是ASCII, python3里默认是unicode

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， utf-16就是现在最常用的unicode版本，不过在文件里存的还是utf-8，因为utf8省空间

3.在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string