字符集

ASCII码:

  也叫做ASCII字符集,美国的编码格式,能够完全满足26个英文字母和剩余的标点符号的编码。例如:65表示大写字母‘A’,97表示小写字母‘a’。

GBK:

  中国的编码集,相较于GB2312,融合了更多的中文文字符号。最多两个字节编码。字节的最高位0和1分别表示单个字节进行编解码、需要两个字节进行编解码。【一个中文字符在GBK中占2个字节】

Unicode:

  全人类都达成共识的编码集,包含了人类使用的所有字符(目前而言)。

  UTF-8——在互联网中使用最广的Unicode的实现方式,通过一定的算法和规则来与Unicode进行转换。在确定到底使用多少个字节的时候,采用首位标记的方式,1、首位为0时,兼容原来的ASCII;2、前三位为110时,表示使用两个字节来表示一个字符;3、前四位1110时,表示使用三个字节来表示一个字符。【一个中文字符在UTF-8中占3个字节】

原文地址:https://www.cnblogs.com/zhou-x/p/11944651.html