Python的垃圾回收机制

易小灯塔
2017-08-07 / 0 评论 / 788 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2022年06月22日,已超过888天没有更新,若内容或图片失效,请留言反馈。

像 c/c++ 这种语言是没有采用垃圾回收机制的,因此当一个对象再也不用时,程序员必须自己释放内存。但采用了垃圾回收机制的语言--如 python,程序员只管创建和使用,不管释放和回收。

Python 的垃圾回收机制

当前的垃圾回收算法多种多样,python 采用的是引用计数为主,标记清除和分代回收为辅的垃圾回收机制。

引用计数

原理:当创建或赋值对象的引用时,对象的引用计数加1;当销毁对象的引用时,对象的引用计数减1;当对象的引用计数值为0时,则说明对象已经没有被引用了,可以将对象所占用的内存释放。

导致引用计数 +1 的情况:

  1. 对象被创建;
  2. 对象被引用;
  3. 对象作为参数传入函数中;
  4. 对象作为元素存储在容器中。

导致引用计数 -1 的情况:

  1. 对象被销毁;
  2. 对象的引用指向了新的对象;
  3. 对象离开了它的作用域;
  4. 对象所在的容器被销毁。

引用计数的优点:

  1. 无需挂起程序;(相对于标记清除法)
  2. 引用局部性比较好;
  3. 废弃及回收。

引用计数的缺点:

  1. 更新引用计数值的花销;
  2. 引用计数占据额外的空间;
  3. 无法处理环形引用的情况。

环形引用的产生

什么是环形引用?比如, A 对象里引用了 B 对象,B 对象引用了 A 对象,这样就形成了环形引用。

class A: 
    pass 
a = A() # 这里 a 的引用是 1 次 
b = A() # 这里同上 
a.t = b # 这里 b 的引用 +1 ,因为 b 的引用为 2 次 
b.t = a # 这里同上 
del b # 这里 b 的引用 -1,因为原来 b 的引用是 2,-1 之后是1,a 的引用仍然为 2 
del a # 这里同上 
# 现在 a,b 已经被删了,但之前它们指向的对象的引用计数值仍为 1,不为 0, 
# 因此引用计数算法仍然认为这两个对象不是垃圾对象,这就是循环引用带来的问题。 

python 为了解决循环引用的问题,引入了标记清除和分代回收。

标记清除

标记清除也是著名的垃圾回收算法之一,最典型的就是 java 采用了这个算法。 原理:

  1. 标记阶段:对所有存活对象进行一次全局遍历来进行对象的标记,所有可达对象标记为可达,其它不可达的对象就是可以被回收的垃圾对象。
  2. 清除阶段:清除所有垃圾对象。

标记清除的优点:

  1. 没有环形引用的问题(相对与引用计数);
  2. 无需操作引用计数值的开销(相对与引用计数)。

标记清除的缺点:

  1. 垃圾回收进行时,程序必须暂停。
  2. 标记阶段的花销较大
  3. 清除对象后会造成内存碎片的问题(解决方法是采用标记缩进算法,这里不再详述)

在 python 中,标记清除主要是为了解决循环引用的问题。 python 会用链表连接可能产生循环引用的对象(如 list,dict,class 等容器类,int,string这类不会产生循环引用),如,a=[],b=[],c={},将会产生:head <----> a <----> b <----> c 双向链表。然后从这些链表里的元素出发,标记每个可到达的对象,然后那些没有被标记的对象将会被清除。

流程:

  1. 寻找根集合,如上面的链表,里面的元素一般为全局引用或函数栈上的引用
  2. 从根出发,可到达对象会被标记
  3. 清除所有没有被标记的对象

分代回收

分代回收在我看来,是为了提高垃圾回收效率和程序性能的的机制。它作用的地方并不是垃圾回收的内容,而是垃圾回收这个动作。

分代收集的思想就是活的越久的对象,就越不是垃圾,回收的频率就应该越低 --《Python垃圾回收机制及gc模块详解》

这个分代回收非常重要的原因是:一部分对象的生存周期比较短,一部分对象的生存周期很长,甚至会持续到程序结束。 这样的话,采用标记清除时,如果都一视同仁的话,会有效率的问题。

比如说,在某个对象的集合中,标记清除对象是 1s 进行一次,在进行了 10 次(共10s)的标记清除后,它发现一部分对象存在了 10 次,因此它把这部分对象移入另一个对象的集合中,对这些对象进行 10s 一次的标记清除,这样的话会比之前不区分的时候效率高,占用的资源少。

python 的分代回收分三个代。(三个代其实是三个链表) 当各个代中的对象数量达到阈值的时候就会触发 python 的垃圾回收。(具体可用 gc 模块的 get_threshold()查看) python 首先从第三代开始检查,如果三代中的对象大于阈值则同时回收三个代的对象,如果二代的的对象大于阈值, 则回收二代和一代的对象。

image-20201107151425979

0

评论 (0)

取消