字符编码

1 为什么要有字符编码

x="上"

内存
上-------翻译-----》0101010
上《----翻译《-----0101010

2 什么是字符编码

字符编码表就是一张字符与数字对应关系的表

3 字符编码的形成的过程

ASCII表：
1、只支持英文字符串
2、采用8位二进制数对应一个英文字符串

GBK表：
1、支持英文字符、中文字符
2、采用8位（8bit=1Bytes）二进制数对应一个英文字符串
采用16位（16bit=2Bytes）二进制数对应一个中文字符串

unicode（内存中统一使用unicode）：
1、兼容万国字符
与万国字符都有对应关系
2、采用16位（16bit=2Bytes）二进制数对应一个中文字符串
个别生僻会采用4Bytes、8Bytes

老的字符编码都可以转换成unicode，但是不能通过unicode互转

utf-8：
英文->1Bytes
汉字->3Bytes

4 总结

4.1、内存固定使用unicode，我们可以改变的是存入硬盘采用格式

英文+汉字-》unicode-》gbk
英文+日文-》unicode-》shift-jis
万国字符》-unicode-》utf-8

4.2、文本文件存取乱码问题

存乱了>>>设置编码格式：解决方法是，编码格式应该设置成支持文件内字符串的格式
取乱了>>>同类编码格式读入：解决方法是，文件是以什么编码格式存入硬盘的，就应该以什么编码格式读入内存

4.3、python解释器默认读文件的编码

python3默认：utf-8
python2默认：ASCII

指定文件头修改默认的编码：
在py文件的首行写：
coding:gbk

4.4、保证运行python程序前两个阶段不乱码的核心法则：指定文件头

coding:文件当初存入硬盘时所采用的编码格式

4.5、如何保证pyhton中不出现乱码(***)

python3的str类型默认直接存成unicode格式，无论如何都不会乱码

保证python2的str类型不乱码
x=u'上'                python2中在str之前加u即可解决乱码问题

4.6、python2中需要了解的知识

python2解释器有两种字符串类型：str、unicode

str类型

x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间

unicode类型

x=u'上'                                             # 强制存成unicode

4.7 如何实现编码解码?

coding:utf-8    #定义文件当初存入硬盘时所采用的编码格式为utf-8
x='上'

res=x.encode('gbk')            # unicode--->gbk

print(res,type(res))

 

print(res.decode('gbk'))