像 c/c++ 这种语言是没有采用垃圾回收机制的,因此当一个对象再也不用时,程序员必须自己释放内存。但采用了垃圾回收机制的语言--如 python,程序员只管创建和使用,不管释放和回收。
Python 的垃圾回收机制
当前的垃圾回收算法多种多样,python 采用的是引用计数为主,标记清除和分代回收为辅的垃圾回收机制。
引用计数
原理:当创建或赋值对象的引用时,对象的引用计数加1;当销毁对象的引用时,对象的引用计数减1;当对象的引用计数值为0时,则说明对象已经没有被引用了,可以将对象所占用的内存释放。
导致引用计数 +1 的情况:
- 对象被创建;
- 对象被引用;
- 对象作为参数传入函数中;
- 对象作为元素存储在容器中。
导致引用计数 -1 的情况:
- 对象被销毁;
- 对象的引用指向了新的对象;
- 对象离开了它的作用域;
- 对象所在的容器被销毁。
引用计数的优点:
- 无需挂起程序;(相对于标记清除法)
- 引用局部性比较好;
- 废弃及回收。
引用计数的缺点:
- 更新引用计数值的花销;
- 引用计数占据额外的空间;
- 无法处理环形引用的情况。
环形引用的产生
什么是环形引用?比如, A 对象里引用了 B 对象,B 对象引用了 A 对象,这样就形成了环形引用。
class A:
pass
a = A() # 这里 a 的引用是 1 次
b = A() # 这里同上
a.t = b # 这里 b 的引用 +1 ,因为 b 的引用为 2 次
b.t = a # 这里同上
del b # 这里 b 的引用 -1,因为原来 b 的引用是 2,-1 之后是1,a 的引用仍然为 2
del a # 这里同上
# 现在 a,b 已经被删了,但之前它们指向的对象的引用计数值仍为 1,不为 0,
# 因此引用计数算法仍然认为这两个对象不是垃圾对象,这就是循环引用带来的问题。
python 为了解决循环引用的问题,引入了标记清除和分代回收。
标记清除
标记清除也是著名的垃圾回收算法之一,最典型的就是 java 采用了这个算法。 原理:
- 标记阶段:对所有存活对象进行一次全局遍历来进行对象的标记,所有可达对象标记为可达,其它不可达的对象就是可以被回收的垃圾对象。
- 清除阶段:清除所有垃圾对象。
标记清除的优点:
- 没有环形引用的问题(相对与引用计数);
- 无需操作引用计数值的开销(相对与引用计数)。
标记清除的缺点:
- 垃圾回收进行时,程序必须暂停。
- 标记阶段的花销较大
- 清除对象后会造成内存碎片的问题(解决方法是采用标记缩进算法,这里不再详述)
在 python 中,标记清除主要是为了解决循环引用的问题。 python 会用链表连接可能产生循环引用的对象(如 list,dict,class 等容器类,int,string这类不会产生循环引用),如,a=[],b=[],c={},将会产生:head <----> a <----> b <----> c 双向链表。然后从这些链表里的元素出发,标记每个可到达的对象,然后那些没有被标记的对象将会被清除。
流程:
- 寻找根集合,如上面的链表,里面的元素一般为全局引用或函数栈上的引用
- 从根出发,可到达对象会被标记
- 清除所有没有被标记的对象
分代回收
分代回收在我看来,是为了提高垃圾回收效率和程序性能的的机制。它作用的地方并不是垃圾回收的内容,而是垃圾回收这个动作。
分代收集的思想就是活的越久的对象,就越不是垃圾,回收的频率就应该越低 --《Python垃圾回收机制及gc模块详解》
这个分代回收非常重要的原因是:一部分对象的生存周期比较短,一部分对象的生存周期很长,甚至会持续到程序结束。 这样的话,采用标记清除时,如果都一视同仁的话,会有效率的问题。
比如说,在某个对象的集合中,标记清除对象是 1s 进行一次,在进行了 10 次(共10s)的标记清除后,它发现一部分对象存在了 10 次,因此它把这部分对象移入另一个对象的集合中,对这些对象进行 10s 一次的标记清除,这样的话会比之前不区分的时候效率高,占用的资源少。
python 的分代回收分三个代。(三个代其实是三个链表) 当各个代中的对象数量达到阈值的时候就会触发 python 的垃圾回收。(具体可用 gc 模块的 get_threshold()
查看) python 首先从第三代开始检查,如果三代中的对象大于阈值则同时回收三个代的对象,如果二代的的对象大于阈值, 则回收二代和一代的对象。
评论 (0)