字符编码理解

什么是字符编码?

在计算机中数据的存储都是装换为数字的储存,及转换为二进制位(bit,0或1两种状态)来储存,8个二进制位为一个字节,一个字节最大可以表示256种状态,当需要表示更多状态时,则需要使用多个字节表示。



ASCII编码

ascii编码是上世纪60年代由美国人制定的,一套描述英文字符与二进制关系的编码规范,最早只有128(0-127)个字母被编码到计算机,包含大小写字母,数字,和一些符号。这128个符号(包括32个不能打印的字符)只占用了一个字节中八个二进制位的后七位,前面一位统一规定为0。

注:由于互联网的发展,语言的多样性,早前编码的128个字符显然是不够用的,于是一些其他国家使用第一个二进制位编入新的符号供其使用。然而新的问题是各个国家用各自的编码,没有统一的编码规则,因此下面要说的Unicode便是为了解决这一问题。



Unicode编码

为了解决多个语言混合时会产生乱码的问题,便出现了Unicode编码,它将所有的语言都进行了统一编码,通常用两个字节表示一个字符(生僻字符可能需要4个字节)。

注:Unicode只是一个字符集,它仅仅只规定了字符的二进制表示,并没有规定该二进制是如何去存储。

缺点:

原文地址:https://www.cnblogs.com/huangzhenghaoBKY/p/7837798.html