Day1:字符编码

一、ASCII码

  ASCII(American Standard Code for Information Interchange,美国标准信息交换代码),8位,一个字节,最多只能表示255个符号。

二、GB2312(1980年)

  一共收录了7445个字符,包括6763个汉字和682个其他符号,72*94=6768,含5个空位。

三、GBK 1.0(1995年)

  21886个符号(其中有21003个汉字)。

四、GB18030(2000年)

  27484个汉字。同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

  从ASCII、GB2312、GBK 到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中

总是有相同的编码,后面的标准支持更多的字符。

五、Unicode(1994年)

  中文、英文都是占两个字节,16位。而ASCII中,每个字符只占了个字节,8位。

六、utf-8

  英文字符,占一个字节,中文字符,占三个字节。

  

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:Hiuhung Wan
#python 2.x
name = "你好,世界!"
print(name)
View Code
而python 3.x 无需指定字符编码,因为默认就是utf-8.
#!/usr/bin/env python
# Author:Hiuhung Wan
#python 3.x
name = "你好,世界!"
print(name)
View Code
原文地址:https://www.cnblogs.com/hiuhungwan/p/7670868.html