python基础学习笔记一

1、变量

为了节省内存，python解释器会对一些简单的字符串以及小整型数，做出一些优化，当要定义的新变量的内容与定义过的内容相同时，会让两者使用同一个内存空间。

例如：

在这个例子里面，‘old’是一个简单的字符串，因此python解释器使name1与name2都指向同一个内存地址，用这一个地址存储‘oldboy’。

注意：对于长字符串和数字（对于范围在【-5,257】的数字，优化机制仍存在），优化机制将不再存在，变量将会各自占用一个内存地址。

小伙伴们要记得哦，查看内存地址时，使用id()这个命令哦！

2、字符编码

①ASCII,最早只有127个字母，即大小写英文字母、数字和一些符号，后128位被称为扩展ASCII码。

②GBK和GB2312：为了能显示中文，并且和ASCII兼容，中国制定GB2312.。而GBK是GB2312的扩展字符集，支持繁体字，且兼容GB2312.

③Unicode：把各国的编码语言都统一到一套编码里，防止乱码的问题。值得注意的是：现代操作系统和大多数编程语言都直接支持Unicode。ASCII与Unicode的区别：ASCII编码是1个字节，而Unicode编码通常是两个字节。

小伙伴们，是不是觉得Unicode很厉害呦，但同时与ASCII一比较，有没有看出一个问题，那就是：如果都统一成Unicode编码，我们肯定对不用担心乱码的问题了，但是若文本都是英文的话，用Unicode编码就多占了一部分的存储空间，而传输速度也会减慢。

④UTF-8：为了改良Unicode的缺点，UTF-8诞生。UTF-8是一个‘可变长编码’，即UTF-8编码可以把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英语字母被编码成1个字节，汉字通常是3个字节，仅一些生僻字符被编码成4-6个字节。

总结：计算机系统通用的字符编码的工作方式：在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或需要传输的时候，就转换为UTF-8编码。用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存时再将Unicode转换为UTF-8保存到文件中。具体见下图：