Python 的垃圾回收

垃圾回收

首先介绍两个画图的工具：objgraph 包和在线绘图网站 draw.io。具体的使用以后再写。

1.引用计数

Python 中，每个对象都有存有指向该对象的引用总数，即：引用计数(reference count)；

可以使用 sys 包中的 getrefcount()，来查看某个对象的引用计数；

需要注意的是，当使用某个引用作为参数，传递给 getrefcount() 时，参数实际上创建了一个临时的引用。因此，getrefcount() 所得到的结果，会比期望的多 1 ；

from sys import getrefcount

a = [1, 2, 3]

print(getrefcount(a))  # 2

b = a

print(getrefcount(b))  # 3

Python的一个容器对象(container)，比如表、词典等，可以包含多个对象。实际上，容器对象中包含的并不是元素对象本身，是指向各个元素对象的引用；

即使是 a = 1 这一赋值方式，实际上是让词典的一个键值 "a" 的元素引用整数对象 1。该词典对象用于记录所有的全局引用。该词典引用了整数对象 1。我们可以通过内置函数 globals() 来查看该词典。

容器对象的引用可能构成很复杂的拓扑结构。我们可以用 objgraph 包来绘制其引用关系，比如：

import objgraph

x = [1, 2, 3]

y = [x, dict(key1=x)]

z = [y, (x, y)]

objgraph.show_refs([z])

两个对象可能相互引用，从而构成所谓的引用环(reference cycle):

a = []

b = [a]

a.append(b)

objgraph.show_refs([a])

即使是一个对象，只需要自己引用自己，也能构成引用环:

c = []

c.append(c)

print(getrefcount(c))

objgraph.show_refs([c])

某个对象的引用计数可能减少。比如，使用 del 关键字删除某个引用，del a；

当 Python 中的对象越来越多，它们将占据越来越大的内存，并在适当的时候启动垃圾回收(garbage collection)，将没用的对象清除；

2.引用计数为 0

当 Python 的某个对象的引用计数降为 0 时，说明没有任何引用指向该对象，该对象就成为要被回收的垃圾了；

然而，垃圾回收时，Python 不能进行其它的任务，频繁的垃圾回收将大大降低 Python 的工作效率；

如果内存中的对象不多，就没有必要总启动垃圾回收。所以，Python 只会在特定条件下，自动启动垃圾回收：

当 Python 运行时，会记录其中分配对象(object allocation)和取消分配对象(object deallocation)的次数。当两者的差值高于某个阈值时，垃圾回收才会启动。

可以通过 gc 模块的 get_threshold() 方法，查看该阈值:

import gc

gc.get_threshold()  # (700, 10, 10),两个10是与分代回收相关的阈值,700 是垃圾回收启动阈值;

gc.set_threshold(800, 10, 5)  # 重新设置垃圾回收的相关阈值

gc.collect()  # 手动启动垃圾回收, gc.collect()

3.分代回收

Python 同时采用了分代(generation)回收的策略。这一策略的基本假设是:

存活时间越久的对象，越不可能在后面的程序中变成垃圾。我们的程序往往会产生大量的对象，许多对象很快产生和消失，但也有一些对象长期被使用。出于信任和效率，对于这样一些“长寿”对象，我们相信它们的用处，所以减少在垃圾回收中扫描它们的频率。

Python 将所有的对象分为 0，1，2 三代。所有的新建对象都是 0 代对象。当某一代对象经历过垃圾回收，依然存活，那么它就被归入下一代对象。垃圾回收启动时，一定会扫描所有的 0 代对象。如果 0 代经过一定次数垃圾回收，那么就启动对 0 代和 1代的扫描清理。当 1 代也经历了一定次数的垃圾回收后，那么会启动对 0，1，2，即对所有对象进行扫描。

(700, 10, 10)中的两个 10 代表：

每 10 次 0 代垃圾回收，会有 1 次 1 代的垃圾回收；每 10 次 1 代的垃圾回收，会有 1 次的 2 代垃圾回收；

4.孤立的引用环--标记清除法

引用环的存在会给垃圾回收机制带来很大的困难，可能构成无法使用，但引用计数不为 0 的一些对象：

"""

	下面创建了两个列表对象，并引用对方，构成一个引用环;

	删除了a，b引用之后，这两个对象不可能再从程序中调用，就没有什么用处了;

	但是由于引用环的存在，这两个对象的引用计数都没有降到0，不会被垃圾回收;

"""

a = []

b = [a]

a.append(b)

del a

del b

为了回收这样的引用环，Python 会复制每个对象的引用计数，可以记为 gc_ref。假设，每个对象 i 的引用计数为 gc_ref_i。Python会遍历所有的对象 i。对于每个对象 i 引用的对象 j，将相应的 gc_ref_j - 1；

在结束遍历后，gc_ref 不为 0 的对象，和这些对象引用的对象，以及继续更下游引用的对象，需要被保留，而其它的对象则被垃圾回收；称之为“标记清除法”.

5.dot 解析网站

objgraph.show_refs() 生成的 dot 文件解析网站 https://onlineconvertfree.com/zh/

import objgraph

a = [1,2,3]

b = [4,5,6]

a.append(b)

b.append(a)

objgraph.show_refs(a)

objgraph.show_refs([a])

objgraph.show_refs([b])