字符集和编码

字符集和编码--石锅拌饭

今天被一个python编码问题折腾了半下午。编码问题一直是个让人比較纠结的问题，写这篇文章想简单的总结下python中一些常见的编码问题以及解决方式。这是第一篇，先总结下字符集和编码的一些基本概念和内容。

在编程中经常能够见到各种字符集和编码，包含ASCII，MBCS，Unicode等字符集。确切的说。事实上字符集和编码是两个不同概念，仅仅是有些地方有重合罢了。对于ASCII。MBCS等字符集。基本上一个字符集方案仅仅採用一种编码方案，而对于Unicode。字符集和编码方案是明白区分的。那么先有几个术语须要说明下。以下这段术语说明摘抄自伯乐在线《关于字符编码。你所须要知道的知识》：

字符集（Character Set）：顾名思义，就是字符的集合。如ASCII字符集，定义了128个字符，而gb2312定义了7445个字符。
计算机中字符集的严格定义来说指的是已编号的字符的有序集合（不一定连续）。
字符码（Code Point）：指的就是字符集中每一个字符的数字编号。比如ASCII字符集用0-127这连续的128个数字分别表示128个字符。GBK字符集使用区位码的方式为每一个字符编号，首先定义一个94X94的矩阵，行称为“区”，列称为“位”。然后将全部国标汉字放入矩阵其中，这样每一个汉字就能够用唯一的“区位”码来标识了。比如“中”字被放到54区第48位。因此字符码就是5448。
而Unicode中将字符集依照一定的类别划分到0~16这17个层面（Planes）中。每一个层面中拥有216=65536个字符码，因此Unicode总共拥有的字符码，也即是Unicode的字符空间总共同拥有17*65536=1114112。
字符编码：将字符集中的字符码映射为字节流的一种详细实现方案。比如ASCII字符编码规定使用单字节中低位的7个比特去编码全部的字符。
比如‘A’的编号是65，用单字节表示就是0×41。因此写入存储设备的时候就是b’01000001’。
GBK编码则是将区位码（GBK的字符码）中的区码和位码的分别加上0xA0（160）的偏移（之所以要加上这种偏移，主要是为了和ASCII码兼容）。比如刚刚提到的“中”字，区位码是5448。十六进制是0×3630，区码和位码分别加上0xA0的偏移之后就得到0xD6D0，这就是“中”字的GBK编码结果。
代码页（Code Page）一种字符编码详细形式。
早期字符相对少，因此一般会使用类似表格的形式将字符直接映射为字节流，然后通过查表的方式来实现字符的编解码。现代操作系统沿用了这样的方式。
比如Windows使用936代码页、Mac系统使用EUC-CN代码页实现GBK字符集的编码，名字尽管不一样。但对于同一汉字的编码肯定是一样的。

1 ASCII

当中ASCII标准本身就规定了字符和字符编码方式，採用单字节编码，总共能够编码128个字符，如空格的编码是32。小写字母a是97，所以ASCII既是字符集又是编码方案。

2 MBCS

对于英文来说，128个符号编码已经够用了，然而对于其它语言比方中文，显然就不够了。

因此就出现了多字节字符集MBCS（Multi-Byte Character Set）。如GB2312,GBK,GB18030,BIG5等编码都属于MBCS。

由于MBCS大都使用2个字节编码，所以有时候也叫DBCS（Double-Byte Character Set）。

我们在Linux系统中看到含有中文的文件编码经常是CP936,那这个事实上就是GBK编码了，这个名字的由来是由于IBM以前发明了一个Code Page的概念，把这些多字节编码收入当中，GBK编码正好位于936页，所以就简称CP936了。

3 Unicode

而后大家认为各种编码太多不方便，不如全部语言字符都使用一套字符集来表示。于是就出现了Unicode。

Unicode/UCS(Unicode Character Set)标准仅仅是一个字符集标准，可是它并没有规定字符的存储和传输方式。

Unicode是一种字符集而不是详细的编码，它主要有3种编码方式：最初Unicode标准使用2个字节表示一个字符。编码方案是UTF-16，还有使用4个字节表示一个字符的编码方案UTF-32。而后来使用英文字符的国家认为不好，原来一个字符存储的如今变成了2个字符。空间增大了一倍，由此UTF-8编码。UTF-8编码中。英文占一个字节，中文占3个字节。

如上面所提到的，Unicode字符集主要採用UTF-8，UTF-16等方式进行编码存储。当然，gbk等字符编码也能够编码Unicode全部的字符集，也算是Unicode的一种字符编码。那么这种话。计算机怎样知道文件採用哪种方式编码呢？Unicode规范中又定义，在每一个文件最前面增加一个表示编码顺序的字符BOM（Byte Order Mark）。比方石锅拌饭中的“石”的UTF-16编码是77F3，採用UTF-16方式存储使用2个字节，一个字节是77，一个字节是F3.存储的时候假设77在前面，F3在后面。则称为big endian方式。反之，则是Little endian方式。。这个字符正好也是2个字节。为FEFF。假设一个文本文件头两个字节威FEFF,则表示採用Big endian方式编码；否则就是Little endian方式。

而UTF-8的BOM是EFBBBF,总结例如以下：

BOM_UTF8 'xEFxBBxBF' 
BOM_UTF16_LE 'xFFxFE' 
BOM_UTF16_BE 'xFExFF'

并非全部的编辑器都会写入BOM。但即使没有BOM，Unicode还是能够读取的，仅仅是须要指定编码，不然可能会失效。

4 ANSI

此外另一种不得不提的是ANSI，ANSI在windows系统中极为常见，事实上ANSI是Windows code pages，这个模式依据当前的locale选定详细编码，假设系统locale是中文简体则採用GBK编码，繁体中文为BIG5编码，日文则是JIS编码。

此外windows中喜欢把BOM_UTF16_LE编码称作Unicode，把BOM_UTF8称作UTF-8。也有人说UTF-8不须要BOM来标示，事实上是不多的。这是由于编辑器一般默认使用UTF-8来測试字符编码而已，假设能够成功解码。就用UTF-8进行解码。即便最開始採用的是ANSI保存的，打开文件时还是最先使用UTF-8来解码。比方你用windows的记事本程序新建一个文件，写入“姹塧”并用ANSI编码保存。再次打开文件，会发现“姹塧”会变成“汉a”。

5 实例分析

还是以石锅拌饭的“石”字来看看在windows以下各种编码方式下的编码吧。

打开windows的记事本程序，分别用ANSI。Unicode（实际是BOM_UTF16_LE），Unicode Big endian。UTF-8这几种编码方式看看终于是否跟之前分析的一样。

这里使用UltraEdit来查看16进制编码，能够打开“编辑”-》16进制编辑功能来查看。

ANSI编码保存，编码是CA AF。这也表示GBK编码存储也採用了Big endian方式。

Unicode编码保存，编码是FF FE F3 77。

Unicode Big endian编码保存，编码是 FE FF 77 F3。

UTF-8编码保存。编码是EF BB BF E7 9F B3。