字符编码常识

基本常识：

1.位和字节

位：(bit)，计算机里存放的二进制的值(0/1)。

字节：(byte)，一个字节由8位组成。8个位的组合有256个组合方式，其值范围：“00000000-11111111”，常用16进制来表示。

通常所说的字符编码，就是指定义一套规则，将真实世界里的字母、字符与计算机二进制序列进行相互转化。

2.编码标准

(1) 拉丁编码（适用于美国，欧洲）

<1> ASCII编码

只支持基础拉丁字母。设计：用1个字节来表示1个字符。且最高位为0，表示字符含义的只有7位，所以可表达的字符只有128个。（适合美国人）

<2> EASCII编码

到西欧的时候，发现美国人设计的ASCII编码无法满足，所以将一个字节中的最高位也利用了起来，可表达的字符256个。

<3> ISO 8859

虽然西欧使用256个字符能满足自身使用了，但是北欧、东欧还是不够，所以就出现了ISO 8859。

不是单独的字符集编码，而是一整套。从ISO 8859-（1-16）没有12，每个字符集对应不同的区域的编码。兼容ASCII的。

以上这三种编码都是单字节编码，一个字符对应一个字节。

(2)中文编码：

但是对于字符集更大的中文来说，并不合适。（大概有8w左右），所以需要多个字节来表示一个字符的编码规则。

GB2312编码：国家简体字符集，用两个字节表示一个汉字。同样还兼容ASCII编码规则。

(3) Unicode 编码：全世界字符统一编码规则

Unicode 采用4字节来表示一个字符，理论上，能表示的字符数就达到2的31次，21亿左右的字符。

但是这样一来，对于中文和拉丁字母就会形成一种浪费。另外如何让计算机区分是Unicode编码还是其他编码也是需要考虑的问题。

<1>UTF-8编码：Unicode编码的一种实现。Unicode是统一编码标准规范。

编码规则：

规则2：对于n字节(n>1)的字符，第一个字节前n位都设为1，第n+1位为0，后面字节的前两位一律设为10，剩下没有提及的位，全部为这个符号的Unicode编码

如图：

UTF-8 与GBK和GB2312并不完全兼容。也就是说不能通过何种方式进行转换。只能通过查表的形式来转换。

UTF-8下的中文占3个字节或4个字节，并不固定。

3.UTF-8 的BOM

Bom是微软给UTF-8加上的，用于表示文件使用的是UTF-8编码。即在UTF-8编码的文件起始位置，加入三个字节“EE BB BF”。

标准并不推荐。

参照：

http://blog.jobbole.com/76376/

https://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/