关于Python 编码的一点认识

在计算机中，所有数据的存储、运算以及传输都必须是二进制数字，因为计算机只认识0和1。

当一个人把一份数据传给另一个人时，计算机传递的是其实是二进制数字，但这些数字需要被还原为原始信息。

这个工作当然是由计算机完成。

它完成的前提是，它要知道这些二进制数具体代表哪些字符。

而这个需要人为定义。

因为世界上的语言不尽相同，自然不可能全部使用同样的规则。

于是出现了ASCII、Unicode、UTF-8、GBK等等对应规则。

有了这些规则以后，计算机就能够将二进制数字翻译为我们能读懂的信息。

但这个前提是，计算机要知道使用哪种对应规则，这个就需要我们去告诉它。

当我们在Python中打开一个文件时，那一串串的二进制数字早就在那里等候了，于是就被计算机读取到了内存中。

你要是不告诉计算机用哪种规则去还原这些0和1，那它可能就不会返回给你想要的信息。

所以我们在打开文件时，写入encoding=“utf-8”，就是告诉计算机，将这些0和1以utf-8编码方式去解读。

用什么规则进行的编码，就需要用相同的规则去解码，如果不一致，就是产生乱码的原因了。