Python字符串和编码注意点

1、ASCII、Unicode 、UTF-8、GB2312编码区分

ASCII码1个字节（byte）8bits,可表示的字符太少，汉字就无法表示，因此使用了GB2312字符集，因为世界范围内有许多不同的字符集，为了包含各字符集且保证各字符集的表示不冲突，就有了Unicode字符集把所有的字符全都统一到一套编码里，但是Unicode编码通常都是2个字节，少数生僻字符需要用到4个字节，但是某些英文字符其实只需要一个字节来表示，这样使用Unicode传输或者存储就会造成极大的浪费，因此产生了UTF-8，属于可变长编码，将Unicode字符根据不同的数字大小编码成1-6个字节，英文字母编成1个字节，汉字一般为3个字节，生僻字编成4-6字节，可以节约空间和带宽，且UTF-8还可以兼容历史遗留的ASCII编码。

2、网络传输或磁盘存储都是用bytes,字符串可以通过encode函数编码为指定的bytes,如'abc'.encode('utf-8'),反之可以使用decode函数进行解码，例如 b'abc'.decode('utf-8')

3、len函数计算的是str的字符数以及bytes的字节数，单位不同，注意区分

4、Python源码开头写上：# -*- coding: utf-8 -*-，表示按UTF-8编码读取，保证源码中的中文输出不会出现乱码。

5、格式化输出与C语言类似，多个变量用括号打包，前面加%，如果需要显示%，则使用%%，如果有多个格式化输出，那么需要将后面的变量或者值用括号括起来