Python的垃圾回收机制

一、栈区和堆区的工作原理

　　1、栈区：是变量名与内存地址的对应关系，可以简单的理解为变量名只存内存地址。变量名与值内存地址的关联关系存放于栈区。我们可以通过变量名的内存地址找到变量值。

　　2、堆区：存放变量值。

　　3、变量名=变量值：x =10 ，把10这个值赋值给x这个变量名。

　　例如：定义一个变量x = 10的值，我们要打印变量值10 ，通过print(x)打印，这里的x等于内存地址0xff001，也就是print(0xff001)，python会通过0xff001找到10这个值。

系统在内存中开辟内存空间，存放变量名和变量值，里面有栈区和堆区，

　　栈区：存放的是内存地址和变量名x，我们假设这个内存地址是编号0xff00000000000000000000000000000000000000000000000000000000000000000000001

　　如果外界想调用这个编号的话就会是这样print(0xff00000000000000000000000000000000000000000000000000000000000000000000001)，用起来不方便，所以把这个编号起了一个便于操作的名字x（可以理解为：变量名就是内存地址，为了便于外界调用方便而给他起的一个名字），这个编号和变量名关联关系我们用(->)表示，同时这个编号代表的是10这个值所在的内存地址的编号。

　　堆区：存放的是值，也就是10

　　如图所示：

　　为了进一步的理解python是如何运行的，我们使用代码来解释一遍上面的第3步骤：

"""
定义一个 x = 10 的变量，
在栈区：存入了变量名x和10的内存地址编号。
在堆区：存入了10的这个值。
解释说明：用我们生活中的例子说明：
        内存：            看做一个大楼。
        内存地址：        类似一个个小的房间。
        10：            这个值就是这个小房间里住进去的人。
        内存地址编号：    类似于房间编号。
        变量名：        类似于10的别名，或者外号。
"""
# x = 10
# # 我们查看一下10这个值的内存地址编号。
# print(id(x))  # --> 10这个值的内存地址编号是：1572299264
# # 我们查看一下堆区中存的这值，也就是1572299264这个编号对应的值
# print(x)  # --> 10

　　4、增加一个y = 20，当我们执行x=y时，内存中的栈区与堆区变化如下：

　　（1）剖析：当 x = y 时，就相当于把y的内存地址给了x（也就是说把20所在的内存地址编号给了x），x关联到了20的内存地址，指向了20这个值。（其实x关联的这个内存地址与y关联的相同）

　　　　当计算机底层操作将x与10的内存地址编号联系（->）切断（x不在指向10的地址值），10所在的这块内存空间就成了垃圾。

　　　　重点强调：

　　　　　　　　本质上来说：栈区是存放的是变量名与内存地址的对应关系（映射关系），可以简单的理解为，变量名存内存地址。底层python解释器会根据内存地址帮我们找到对应的值

　　　　　　　堆区存放变量值

　　　　我们只站在变量名的角度说赋值：嵌套要知道什么是变量名赋值？例如print(10)这就不是变量名赋值了。

　　　　　　　所有的赋值如：（1）变量名赋值：x = y

　　　　　　　　　　　　　　（2）还有变量名的传参（print(x)）

　　　　　　　　　　　传递的都是引用（引用的都是关联到值的内存地址，也就是栈区的数据，而且栈的数据是变量名与内存地址的对应关系，或者说是对值的引用）

　　使用代码来解释一遍上面的第4步骤：

# 定义一个x = 10 的变量
x = 10
# 定义一个y = 20 的变量
y = 20
# 我们查看一下堆区中存的10这个值
print(x)  # --> 10
# 我们查看一下堆区中存的20这个值
print(y)  # --> 20
# 我们查看一下10这个值的内存地址编号。
print(id(x))  # --> 10这个值的内存地址编号是：1572299264
# 我们查看一下20这个值的内存地址编号。
print(id(y))  # --> 20这个值的内存地址编号是：1572299584

x = y  # 把y的内存地址传递给了x
# 我们验证一下x，y的内存地址是否是一个？
print(x is y)  # --> 输出的结果：True，说明x，y指向的内存地址值是一个
print(id(x),id(y))  # -->1570726720 1570726720 地址值相同了，说呢值也相同的。
# 验证一下x,y的值是否相等。
print(x,y)  # -->20 20

　　5、直接引用与间接引用（这里的引用的都是关联到值的内存地址）

　　　　（1）直接引用：指的是从栈区出发直接引用到的内存地址。（直接引用类型int、float、str、bool）

　　　　（2）间接引用：指的是从栈区出发引用到堆区后，再通过进一步引用才能到达的内存地址。（间接引用类型：列表，字典）

　　　　　　总结：直接引用和间接引用的区别是：堆区的值能否被栈区的变量名关联一次就关联到。

　　　　　　总结：容器类（可以存入多个值的类型）的里面的元素都属于间接引用

x = 10 # 值10，被变量名x，直接引用
l2 = [20, 30]  # 列表本身被变量名l2直接引用，包含的元素被列表间接引用
l1 = [x, l2]  # 列表本身被变量名l1直接引用，包含的元素被列表间接引用

　　　　　　图解如下：

使用代码解释一下上面的步骤：

x = 10  # 值10，被变量名x，直接引用
print(id(10))  # --> 491938304
print(id(x))  # --> 491938304
l2 = [20, 30,]  # 列表本身被变量名l2直接引用，包含的元素被列表间接引用
print(id(l2))  # --> 31407944
print(id(l2[0]))  # --> 501048128
print(id(l2[1]))  # --> 501048448
l1 = [x, l2]  # 列表本身被变量名l1直接引用，包含的元素被列表间接引用
print(id(l1))  # --> 36781640
print(id(l1[0]))  # --> 491938304
print(id(l1[1]))  # --> 36781832

二、计算机的垃圾。

　　解释器在执行到定义变量的语法时（x =10），系统在内存中开辟一块内存空间，如果每次定义变量时都会在内存中创建一块空间，而内存的容量是有限的，长期的创建下去内存就会满，造成内存溢出，这就要定期的去清空内存中的垃圾（当内存中的值不在被直接或间接引用时，这个值就成了垃圾），如图所示：

　　　　当x = y时，x 将不再引用 10这个值，此时10所在的内存空间就没有用了（简称垃圾）就应该被回收掉。

　　内存空间的申请与回收是非常耗费精力的事情，而且存在很大的危险性，稍有不慎就有可能引发内存溢出问题（造成数据丢失），好在Cpython解释器提供了自动的垃圾回收机制来帮我们解决了这件事。

三、什么是垃圾回收机制？为什么要用垃圾回收机制？

　　垃圾回收机制（简称GC）是Python解释器自带一种机制，专门用来回收不可用的变量值所占用的内存空间。

　　程序运行过程中会申请大量的内存空间，而对于一些无用的内存空间如果不及时清理的话会导致内存使用殆尽（内存溢出），导致程序崩溃，因此管理内存是一件重要且繁杂的事情，而python解释器自带的垃圾回收机制把程序员从繁杂的内存管理中解放出来。

　　垃圾回收机制：引用计数、标记清除、分代回收

四、垃圾回收机制原理分析？

　　Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题，并且通过“分代回收”（generation collection）以空间换取时间的方式来进一步提高垃圾回收的效率。

　　4.1、什么是引用计数

　　　　引用计数就是：变量值被变量名关联的次数。（相当于一个人有多个名字）

　　　　如：age=18

　　　　变量值18被关联了一个变量名age，称之为引用计数为1　　

　　　　引用计数增加：

　　　　　　age=18 （此时，变量值18的引用计数为1）

　　　　　　m=age （把age的内存地址给了m，此时，m,age都关联了18，所以变量值18的引用计数为2）

　　　　引用计数减少：

　　　　　　age=10（名字age先与值18解除关联，再与3建立了关联，变量值18的引用计数为1）

　　　　　　del m（del的意思是解除变量名x与变量值18的关联关系，此时，变量18的引用计数为0）

　　　　值18的引用计数一旦变为0，其占用的内存地址就应该被解释器的垃圾回收机制回收

　　4.2、引用计数扩展阅读

　　变量值被关联次数的增加或减少，都会引发引用计数机制的执行（增加或减少值的引用计数），这存在明显的效率问题。

　　如果说执行效率还仅仅是引用计数机制的一个软肋的话，那么很不幸，引用计数机制还存在着一个致命的弱点，即循环引用（也称交叉引用）

# 如下我们定义了两个列表，简称列表1与列表2，变量名l1指向列表1，变量名l2指向列表2
>>> l1=['xxx']  # 列表1被引用一次，列表1的引用计数变为1   
>>> l2=['yyy']  # 列表2被引用一次，列表2的引用计数变为1   
>>> l1.append(l2)             # 把列表2追加到l1中作为第二个元素，列表2的引用计数变为2
>>> l2.append(l1)             # 把列表1追加到l2中作为第二个元素，列表1的引用计数变为2

# l1与l2之间有相互引用
# l1 = ['xxx'的内存地址,列表2的内存地址]
# l2 = ['yyy'的内存地址,列表1的内存地址]
>>> l1
['xxx', ['yyy', [...]]]
>>> l2
['yyy', ['xxx', [...]]]
>>> l1[1][1][0]
'xxx'

　　循环引用会导致：值不再被任何名字关联，但是值的引用计数并不会为0，应该被回收但不能被回收，什么意思呢？试想一下，请看如下操作

>>> del l1 # 列表1的引用计数减1，列表1的引用计数变为1
>>> del l2 # 列表2的引用计数减1，列表2的引用计数变为1

　　此时，只剩下列表1与列表2之间的相互引用，两个列表的引用计数均不为0，但两个列表不再被任何其他对象关联，没有任何人可以再引用到它们，所以它俩占用内存空间应该被回收，但由于相互引用的存在，每一个对象的引用计数都不为0，因此这些对象所占用的内存永远不会被释放，所以循环引用是致命的，这与手动进行内存管理所产生的内存泄露毫无区别。所以Python引入了“标记-清除” 与“分代回收”来分别解决引用计数的循环引用与效率低的问题

4.2.1 标记-清除

　　容器对象（比如：list，set，dict，class，instance）都可以包含对其他对象的引用，所以都可能产生循环引用。而“标记-清除”计数就是为了解决循环引用的问题。

　　在了解标记清除算法前，我们需要明确一点，关于变量的存储，内存中有两块区域：堆区与栈区，在定义变量时，变量名与值内存地址的关联关系存放于栈区，变量值存放于堆区，内存管理回收的则是堆区的内容，详解如下图,

　　定义了两个变量x = 10、y = 20

　　当我们执行x=y时，内存中的栈区与堆区变化如下

　　标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时，就会停止整个程序，然后进行两项工作，第一项则是标记，第二项则是清除

#1、标记
标记的过程其实就是，遍历所有的GC Roots对象(栈区中的所有内容或者线程都可以作为GC Roots对象），然后将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象，其余的均为非存活对象，应该被清除。
#2、清除
清除的过程将遍历堆中所有的对象，将没有标记的对象全部清除掉。

　　直接引用指的是从栈区出发直接引用到的内存地址，间接引用指的是从栈区出发引用到堆区后再进一步引用到的内存地址，以我们之前的两个列表l1与l2为例画出如下图像

　　当我们同时删除l1与l2时，会清理到栈区中l1与l2的内容

　　这样在启用标记清除算法时，发现栈区内不再有l1与l2（只剩下堆区内二者的相互引用），于是列表1与列表2都没有被标记为存活，二者会被清理掉，这样就解决了循环引用带来的内存泄漏问题。

总结：我们把栈区想象为根，标记清除是从跟出发可以直接访达的或者是间接访达都称为有根之人，应给存活，无根之人应该被回收。

4.2.2 分代回收

　　背景：

　　　　基于引用计数的回收机制，每次回收内存，都需要把所有对象的引用计数都遍历一遍，这是非常消耗时间的，于是引入了分代回收来提高回收效率，分代回收采用的是用“空间换时间”的策略。

　　分代：

　　　　分代回收的核心思想是：在历经多次扫描的情况下，都没有被回收的变量，gc机制就会认为，该变量是常用变量，gc对其扫描的频率会降低，具体实现原理如下：

1、分代指的是根据存活时间来为变量划分不同等级（也就是不同的代）
2、新定义的变量，放到新生代这个等级中，假设每隔1分钟扫描新生代一次，如果发现变量依然被引用，那么该对象的权重（权重本质就是个整数）加一，当变量的权重大于某个设定得值（假设为3），会将它移动到更高一级的青春代，青春代的gc扫描的频率低于新生代（扫描时间间隔更长），假设5分钟扫描青春代一次，这样每次gc需要扫描的变量的总个数就变少了，节省了扫描的总时间，接下来，青春代中的对象，也会以同样的方式被移动到老年代中。也就是等级（代）越高，被垃圾回收机制扫描的频率越低

　　回收：

　　　　回收依然是使用引用计数作为回收的依据

　　虽然分代回收可以起到提升效率的效果，但也存在一定的缺点：

　　　　#例如一个变量刚刚从新生代移入青春代，该变量的绑定关系就解除了，该变量应该被回收，但青春代的扫描频率低于新生代，所以该变量的回收就会被延迟。