python基础03——垃圾回收机制

垃圾回收机制(面试常见题)

存在意义：

解释器在执行到定义变量的语法时，会申请内存空间来存放变量的值，而内存的容量是有限的，这就涉及到变量值所占用内存空间的回收问题，当一个变量值没有用了（简称垃圾）就应该将其占用的内存给回收掉

什么样的变量值是没有用的呢？

变量值需要绑定直接引用or间接引用，当变量值不再绑定任何引用时，则无法访问该变量值，此变量值就是没有用的，应当被回收

什么是垃圾回收机制？

垃圾回收机制（简称GC）是Python解释器自带一种机，专门用来回收不可用的变量值所占用的内存空间

为什么要用垃圾回收机制？

程序运行过程中会申请大量的内存空间，而对于一些无用的内存空间如果不及时清理的话会导致内存使用殆尽（内存溢出），导致程序崩溃，因此管理内存是一件重要且繁杂的事情，而python解释器自带的垃圾回收机制把程序员从繁杂的内存管理中解放出来。

垃圾回收机制原理分析

Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题，并且通过“分代回收”（generation collection）以空间换取时间的方式来进一步提高垃圾回收的效率。

什么是引用计数？

引用计数就是：变量值被变量名关联的次数

引用计数一旦变为0，其占用的内存地址就应该被解释器的垃圾回收机制回收

1、直接引用:指的是从栈区出发直接引用到的内存地址

x = 10
print(id(x))
y = x
z = x

2、间接引用:指的是从栈区出发引用到堆区后，再通过进一步引用才能到达的内存地址

l = ['a', 'b', x]

print(id(l[2]))

d = {'mmm': x}

print(id(d['mmm']))

# l=['a'的内存地址,'b'的内存地址,10的内存地址]

x=10

l=['a','b',x]

引用计数的软肋：

1、变量值的增加或者减少都会引发引用计数机制的执行，其执行效率大大降低

2、循环引用（又称交叉引用）

# 如下我们定义了两个列表，简称列表1与列表2，变量名l1指向列表1，变量名l2指向列表2
>>> l1=['xxx']                # 列表1被引用一次，列表1的引用计数变为1   
>>> l2=['yyy']                # 列表2被引用一次，列表2的引用计数变为1   
>>> l1.append(l2)             # 把列表2追加到l1中作为第二个元素，列表2的引用计数变为2
>>> l2.append(l1)             # 把列表1追加到l2中作为第二个元素，列表1的引用计数变为2

# l1与l2之间有相互引用
# l1 = ['xxx'的内存地址,列表2的内存地址]
# l2 = ['yyy'的内存地址,列表1的内存地址]
>>> l1
['xxx', ['yyy', [...]]]
>>> l2
['yyy', ['xxx', [...]]]
>>> l1[1][1][0]
'xxx'

循环引用会导致：值不再被任何名字关联，但是值的引用计数并不会为0，应该被回收但不能被回收，什么意思呢？试想一下，请看如下操作

>>> del l1            # 列表1的引用计数减1，列表1的引用计数变为1
>>> del l2            # 列表2的引用计数减1，列表2的引用计数变为1

此时，只剩下列表1与列表2之间的相互引用，两个列表的引用计数均不为0，但两个列表不再被任何其他对象关联，没有任何人可以再引用到它们，所以它俩占用内存空间应该被回收，但由于相互引用的存在，每一个对象的引用计数都不为0，因此这些对象所占用的内存永远不会被释放，所以循环引用是致命的，这与手动进行内存管理所产生的内存泄露毫无区别。

》》》》》救星来啦：Python引入了“标记-清除” 与“分代回收”来分别解决引用计数的循环引用与效率低的问题

2、标记清除

内存管理回收堆区的内容

定义了两个变量x = 10、y = 20

当我们执行x=y时，内存中的栈区与堆区变化如下

标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时，就会停止整个程序，然后进行两项工作，第一项则是标记，第二项则是清除

1、标记

标记的过程其实就是，遍历所有的GC Roots对象(栈区中的所有内容或者线程都可以作为GC Roots对象），然后将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象，其余的均为非存活对象，应该被清除。

2、清除

清除的过程将遍历堆中所有的对象，将没有标记的对象全部清除掉。

直接引用指的是从栈区出发直接引用到的内存地址，间接引用指的是从栈区出发引用到堆区后再进一步引用到的内存地址，以我们之前的两个列表l1与l2为例画出如下图像

当我们同时删除l1与l2时，会清理到栈区中l1与l2的内容

这样在启用标记清除算法时，发现栈区内不再有l1与l2（只剩下堆区内二者的相互引用），于是列表1与列表2都没有被标记为存活，二者会被清理掉，这样就解决了循环引用带来的内存泄漏问题。

》》》》》再次升级，解决遍历费时问题，采用“空间换时间”的策略

3、分代回收

核心思想是：通过降低引用计数的扫描频率，提升垃圾回收的效率

分代指的是根据存活时间来为变量划分不同等级（也就是不同的代）

新定义的变量，放到新生代这个等级中，假设每隔1分钟扫描新生代一次，如果发现变量依然被引用，那么该对象的权重（权重本质就是个整数）加一，当变量的权重大于某个设定得值（假设为3），会将它移动到更高一级的青春代，青春代的gc扫描的频率低于新生代（扫描时间间隔更长），假设5分钟扫描青春代一次，这样每次gc需要扫描的变量的总个数就变少了，节省了扫描的总时间，接下来，青春代中的对象，也会以同样的方式被移动到老年代中。也就是等级（代）越高，被垃圾回收机制扫描的频率越低

缺点：一个变量刚刚从新生代移入青春代，该变量的绑定关系就解除了，该变量应该被回收，但青春代的扫描频率低于新生代，所以该变量的回收就会被延迟。