python中的一些编码问题

  • 小数据池的一些特点

在python中我们用==比较变量的值是否相等,用is比较变量的地址是否相同。

id(‘value’)在python为取地址操作,输出所输入value的地址。

对于数字当值在-5-256时创建小数据池,也就是多个变量共用一个地址。

对于字符串,当字符串不是特别长的时候共用一个地址。(具体的规则不清楚)

  • 赋值的有一些问题(自己总结的)

python中的赋值符是将地址传给被赋值对象,也就是说利用新的变量更改值,老变量中的值也会发生变化。

# 直接创建会,变量的地址不同,改变不互相影响
li1 = (1,[1,2,3],1)
li2 = (1,[1,2,3],1)
print(li1 is li2)
li2[1][1] = 'change'
print(li1,li2)
# 用赋值号在变量之间传输值,实际上是吧地址传输给了被赋值对象,改变相互影响
li1 = (1,[1,2,3],1)
li2 = li1
print(li1 is li2)
li2[1][1] = 'change'
print(li1,li2)
  • ASCII,unicode,utf-8,gbk等编码在python中的作用

ASCII码是基本的编码方式他使用一个字节表示一个英文字符或者一个特殊字符(最多能表示256个字符)

unicode使用32位(4个字节)表示一个字符,虽然最多能表示4294967296个字符,但是每个字符占用4个字节,太浪费空间。所以在Python中用unicode编码在内存中的数据,而不用来传输或者储存。(以前存在过unicode16但是已经淘汰很久了)

utf-8使用1个字节(8位)表示一个英文字母和一些特殊字符,用16位表示一个欧洲字符,用24位(3个字节)表示一个亚洲字符

gbk中国国产的编码方式,使用8位(1个字节)表示一个英文字符或者特殊字符,使用16位(2个字节)表示一个中文字符

 python2 默认用ascii windows终端默认使用gbk python3使用utf-8 

各个编码之间是不能相互识别的会造成乱码

 python中的字符串在内存中使用Unicode编码是不能直接用来传输或者储存的,需要转换为bytes类型才能够用于传输或者储存。

bytes类型中的数据是使用utf-8或者gbk等可以直接用于储存或者传输的方式编码的。

使用encode函数将字符串转化为bytes类型。

s = '小乌龟'
b = s.encode('utf-8')
print(b)

当字符串为英文或者特殊字符时,使用b'cctv'表示bytes类型的数据

s = b'sss+'
print(s) # 结果是b'sss+'
原文地址:https://www.cnblogs.com/baisexiaoxuanfeng/p/10493720.html