python不同编码方式对应所占字节数

不同编码方式对应所占字节数

  • ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。
  • UTF-8编码中,一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。
  • Unicode编码中,一个英文等于两个字节,一个中文(含繁体)等于两个字节。
  • 符号:英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。
  • UTF-16编码中,一个英文字母字符或一个汉字字符存储都需要2个字节(Unicode扩展区的一些汉字存储需要4个字节)。
  • UTF-32编码中,世界上任何字符的存储都需要4个字节。

一般来说,英文状态下一个字母或数字(称之为字符)占用一个字节,一个汉字用两个字节表示。在不同的编码方式下一个字符占的字节不太一样。
按照ANSI编码标准,标点符号、数字、大小写字母都占一个字节,汉字占2个字节。按照UNICODE标准所有字符都占2个字节。

在线编码转换
汉字字符集编码查询

原文地址:https://www.cnblogs.com/vito-lee/p/11936150.html