字符编码补充

字符编码

乱码：产生乱码的本质原因是存和取所采用的编码格式不一样

编码种类：ascii unicode gbk gb2312 utf-8

电脑组成：硬盘 ====》内存===》一级缓存二级缓存 CPU寄存器===》CPU

cpu 交互的是用户能识别的数据，字符

硬盘中最终存贮的数据：01的二进制数据（可以直接转化为电脑能识别的高低电平）

什么是字符编码：

将人识别的字符转换成计算机能识别的01 高低电平，转换的规则就是字符编码

编码表也就是对应关系

最早期的对应关系 ascii编码表：存放的是英文数字字符与机器二进制的对应关系

例如;数字70对应ascii 表指向的是字母F

print(chr(70)) ------------------->>F

print(ord('F')) --------------------->>70

字节所占字节数

1字节 = 8个二进制位 00000000----111111111 256个数字 -128 ~127

00000000---1000000 拓展：原码补码反码

ascii中一个字母或数字占据一个字节

GBK:中文编码最新GBK gb18030

16个二进制位 15个0到15个1

兼容ascii 一个字母或者数字占据一个字节

2W多汉字，用两个字节进行存贮

日文/韩文 shift_JIS / Euc-kr

国际上交流：

一条信息中，可能同时出现英文中文日文韩文......将所有信息存贮且不乱码

万国编码表：Unicode

uincode 采用两个字节存放数据

utf-8 Utf-16 utf-32 常用国际编码

utf-8采用变长存贮：1字节存放数字与英文，3字节存放汉字

utf-16采用定长存贮：均以2字节存放数字，英文，汉字（常用的，也就是部分的汉字，不是全部的汉字）

内存中用utf-16存取数据，定长存取数据效率高，变长还需要计算之后才能存取

cpu和硬盘中，采用utf-8存取数据，（utf-8传输更快）

拓展：现在在实际的项目过程中很多公司都采取牺牲空间提升效率的方法，因为硬件扩展比较容易，加内存条加存贮器都容易解决，而且成本不是很高，但是要提高程序的运算效率，改进算法，就是比较麻烦的了。

三种字符串


###原文本字符串数据
s1='abc123你好'
print(s1)

####二进制字符串数据:
#数据传输是以字节为单位，要将原字符串转换为二进制字符串才能传输
#编码
res = s1.encode('utf-8')
#解码
s2 = res.decode('gbk')


####原义字符串数据
s3 = r'你好
好的'
print(s3)

总结：

字典：

增删改查

字典循环 dic.keys() dic.values() dic.items()

字典嵌套字典可以和列表交叉嵌套

python

!1554014084370](C:UsersDELLAppDataLocalTemp1554014084370.png)

字符编码

以后我们使用的文本文件统统采用utf-8编码

ascii----->各国自己独有的编码（例如gbk）兼容ascii----------->unicode 万国编码兼容前面的------->utf-8 utf-16

python2默认采用ascii 编码表。

python3默认采用utf-8

再文件最上方可以通过 encoding: 编码名来规定文件解码的编码表

再python3以后的开发环境，所有的文件采用utf-8编码存贮，python3默认也采用utf-8读取文件，所以可以省略文件头