Python的垃圾回收机制

像 c/c++ 这种语言是没有采用垃圾回收机制的，因此当一个对象再也不用时，程序员必须自己释放内存。但采用了垃圾回收机制的语言--如 python，程序员只管创建和使用，不管释放和回收。

Python 的垃圾回收机制

当前的垃圾回收算法多种多样，python 采用的是引用计数为主，标记清除和分代回收为辅的垃圾回收机制。

引用计数

原理：当创建或赋值对象的引用时，对象的引用计数加1；当销毁对象的引用时，对象的引用计数减1；当对象的引用计数值为0时，则说明对象已经没有被引用了，可以将对象所占用的内存释放。

导致引用计数 +1 的情况：

对象被创建；
对象被引用；
对象作为参数传入函数中；
对象作为元素存储在容器中。

导致引用计数 -1 的情况：

对象被销毁；
对象的引用指向了新的对象；
对象离开了它的作用域；
对象所在的容器被销毁。

引用计数的优点：

无需挂起程序；（相对于标记清除法）
引用局部性比较好；
废弃及回收。

引用计数的缺点：

更新引用计数值的花销；
引用计数占据额外的空间；
无法处理环形引用的情况。

环形引用的产生

什么是环形引用？比如， A 对象里引用了 B 对象，B 对象引用了 A 对象，这样就形成了环形引用。

class A: 
    pass 
a = A() # 这里 a 的引用是 1 次 
b = A() # 这里同上 
a.t = b # 这里 b 的引用 +1 ，因为 b 的引用为 2 次 
b.t = a # 这里同上 
del b # 这里 b 的引用 -1，因为原来 b 的引用是 2，-1 之后是1，a 的引用仍然为 2 
del a # 这里同上 
# 现在 a，b 已经被删了，但之前它们指向的对象的引用计数值仍为 1，不为 0， 
# 因此引用计数算法仍然认为这两个对象不是垃圾对象，这就是循环引用带来的问题。

python 为了解决循环引用的问题，引入了标记清除和分代回收。

标记清除

标记清除也是著名的垃圾回收算法之一，最典型的就是 java 采用了这个算法。原理：

标记阶段：对所有存活对象进行一次全局遍历来进行对象的标记，所有可达对象标记为可达，其它不可达的对象就是可以被回收的垃圾对象。
清除阶段：清除所有垃圾对象。

标记清除的优点：

没有环形引用的问题（相对与引用计数）；
无需操作引用计数值的开销（相对与引用计数）。

标记清除的缺点：

垃圾回收进行时，程序必须暂停。
标记阶段的花销较大
清除对象后会造成内存碎片的问题（解决方法是采用标记缩进算法，这里不再详述）

在 python 中，标记清除主要是为了解决循环引用的问题。 python 会用链表连接可能产生循环引用的对象（如 list，dict，class 等容器类，int，string这类不会产生循环引用），如，a=[],b=[],c={},将会产生：head <----> a <----> b <----> c 双向链表。然后从这些链表里的元素出发，标记每个可到达的对象，然后那些没有被标记的对象将会被清除。

流程：

寻找根集合，如上面的链表，里面的元素一般为全局引用或函数栈上的引用
从根出发，可到达对象会被标记
清除所有没有被标记的对象

分代回收

分代回收在我看来，是为了提高垃圾回收效率和程序性能的的机制。它作用的地方并不是垃圾回收的内容，而是垃圾回收这个动作。

分代收集的思想就是活的越久的对象，就越不是垃圾，回收的频率就应该越低 --《Python垃圾回收机制及gc模块详解》

这个分代回收非常重要的原因是：一部分对象的生存周期比较短，一部分对象的生存周期很长，甚至会持续到程序结束。这样的话，采用标记清除时，如果都一视同仁的话，会有效率的问题。

比如说，在某个对象的集合中，标记清除对象是 1s 进行一次，在进行了 10 次（共10s）的标记清除后，它发现一部分对象存在了 10 次，因此它把这部分对象移入另一个对象的集合中，对这些对象进行 10s 一次的标记清除，这样的话会比之前不区分的时候效率高，占用的资源少。

python 的分代回收分三个代。（三个代其实是三个链表）当各个代中的对象数量达到阈值的时候就会触发 python 的垃圾回收。（具体可用 gc 模块的 get_threshold()查看） python 首先从第三代开始检查，如果三代中的对象大于阈值则同时回收三个代的对象，如果二代的的对象大于阈值，则回收二代和一代的对象。