编码相关知识

学习地址:

1.https://wenku.baidu.com/view/cb9fe505cc17552707220865.html

2.https://www.cnblogs.com/doudou-taste/p/7351278.html

1.ASCII(0-127)这个是最开始只有美国用的美国标准信息互换代码,范围为0-127

2.当计算机发展到其他国家时,其他国家需要展示他们想要的字符,所以其他国家变增加了‘扩展字符集’,范围从128-255

3.当计算机发展到中国时,为了展示7000多个中文字符时,中国人民将两个大于127的字符合起来表示一个中文,叫GB2312,第一位成为高字节,后面一位成为低字节,这样小于127的字符与原ASCII码一致,所以英文的字符(标点、数字、字母)叫半角字符,而中文的字符用两位大于127的字符表示的(标点、数字、字母)叫全角字符

4.但是这样仍然不够中国人民使用,于是便不再规定两个字符必须大于127,只需要第一个大于127即可,这便是GBK,在原有的GB2312上又增加了2000多个汉字

5.国际为了统一,变使用了Unicode,采用定长的双字节表示字符,即使是英文的也是两个字节的,对于之前小于127的那些,用Unicode时就相当于在前面加了0

6.因为Unicode会占用比较多的空间,英文字符也要占两个字节的空间,unicode不便于传输和存储,所以使用了UTF,utf编码是不定长编码,每一个字符的长度从1-6个字节不等。另外,utf编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。

原文地址:https://www.cnblogs.com/fireporsche/p/6654887.html