大家好,我是TT。
这篇聊一个新的主题,那就是垃圾回收。对于C/C++程序员来说,内存错误是一个非常头疼的问题,常见的错误有内存泄露、悬空指针等。这使得程序员在写程序时必须很小心地申请内存,并且在适当的时候释放。但即便是很优秀的程序员,也很难保证每次申请、释放内存的操作和时机都是正确的。
为了使得程序员将注意力集中在业务逻辑而不是内存管理,于是自动内存管理技术就诞生了,它也被称为垃圾回收技术(GarbageCollection,GC)。
垃圾回收技术降低了程序员的心智负担,将程序员从繁重的内存管理工作中解放出来,这才使得淘宝这样的大型应用成为可能。但是随着业务越来越复杂,GC算法中固有的停顿造成业务卡顿等问题也变得越来越严重。在一些时延敏感型业务中,业务响应时间和GC停顿的矛盾就更加突出。所以,理解GC算法的基本原理并对其加以优化,是现代Java程序员的一项必备技能。
垃圾回收的基本概念和定义
在GC算法的学习过程中,一个比较大的挑战是概念和术语比较多。在这个专栏里,我会根据需要把专用概念逐个加以介绍,我们先从最简单的开始。
GC算法中最重要的两个角色就是Mutator和Collector。
Mutator
Mutator的本意是改变者。这个词所表达的是通过程序来改变对象之间的引用关系。因为我们所写的所有Java程序,都有可能改变对象的存活和死亡状态,以及它们之间的引用关系,那么这些Java程序就是Mutator。因为Java程序运行所在的这些线程,我们也称为业务线程,所以在某些情况下,Mutator和业务线程这两个术语是可以混用的。在这篇内容中,我们使用Mutator这个术语。
Collector
Collector用于回收空间中的垃圾,所以叫做收集者。根据不同的GC算法,Collector不仅仅是收集,例如在Mark-Sweep中,它还负责标记存活对象、识别垃圾对象。执行Collector的线程,我们一般称为Collector线程或者GC线程。在某些GC算法中,业务线程也有可能帮助做垃圾回收的工作。所以,Mutator和Collector只是一种相对的说法,而不是精确的概念。
然后,我们还需要理解Java堆的结构,以及如何描述堆中的对象,以便于设计GC算法。
进程堆是指进程中可以使用malloc和free进行分配和释放的一块用户态内存区域。而Java堆则专指创建普通Java对象的地方,这一段内存是由虚拟机所管理的。
进程的堆的概念比Java堆的概念要大。进程堆还包括了Metaspace、JIT代码段等部分。明确了Java堆的概念以后,我们再来看看堆里的对象该如何进行描述呢?
假设有两个对象A和B,A引用了B对象,我们就从A向B绘制一条有向边。再把堆中的对象看成是结点,那么,堆里的对象和它的引用关系就可以使用图来表达了。这里有一个例子,可以帮助你理解,如下所示:
上面代码的main函数中,创建了三个对象。我们按照上面所描述的办法,使用有向边把具有引用关系的对象表示出来,那么上面的程序就可以用下面的示意图来表示:
这样,我们就得到了一个有向图。接下来我们就可以借助图论的各种知识来处理自动内存管理问题了。如果我们在上述main方法的最后,再添加一行代码:
a.b=newB();
那么,此时各个对象之间的引用关系就变成下图所示的样子:
可以看到,原来a对象引用着b对象,现在这个引用就指向了新的对象,我们记为b’对象。b对象指向a和c的引用并没有发生变化。
从这个图中,我们可以清楚地看到此时已经没有任何对象引用b对象了。在执行完这一句之后,我们在代码里也已经没有任何办法可以再次访问到b对象了。那么此时,b对象就变成了垃圾对象。而a对象还能使用栈上的一个变量继续访问它,所以它是一个活跃对象。
将对象之间的引用关系抽象成图这种数据结构以后,我们就可以使用图算法来研究垃圾回收问题了。比如说,我们想找出所有活跃的对象,只需要从确定的活跃对象出发,对整个有向图进行遍历,遍历到的就是活跃对象,遍历不到的就是垃圾对象。
这里我们要先明确什么是“确定的活跃对象”。所有不在堆中,而指向堆里的引用都是根引用,根引用所指向的对象就是“确定的活跃对象”,这些对象是根对象。根引用的集合就是根集合。根集合是很多基于可达性分析的GC算法遍历的起点。例如:
在执行到buildA的时候,内存里的真实情况如下图所示:
buildA的栈帧里有三个变量objA、objB、objC,它们都有引用指向堆里,所以这三个引用都是根引用。当buildA的栈帧还存在的时候,这些引用就存在,那么堆里的这三个对象就是活跃对象。一旦buildA方法执行完了,它所对应的栈帧就会被销毁,上图中的三个引用就会消失,同时堆里的三个对象也就变成了垃圾对象。
我们定义了GC算法相关概念和定义后,我们再来看看GC算法的评价标准。
GC算法的评价标准
各种常用的GC算法,它们的特点各不相同,分别适用于不同的场景。要想搞清楚在什么情况下采用什么算法,我们就要先分析清楚GC算法的特点。具体来讲,常用的评价GC算法的标准有以下几条:
1.分配的效率:主要考察在创建对象时,申请空闲内存的效率;
2.回收的效率:它是指回收垃圾时的效率;
.是否产生内存碎片:在讲解malloc的时候,我们讲过内存碎片。碎片是指活跃对象之间存在空闲内存,但这一部分内存又不能被有效利用。比如内存里有两块不连续的16字节空闲空间,此时分配器要申请一块2字节的空间,虽然总的空闲空间也是2字节,但由于它们不连续,不能满足分配器的这次申请。这就是碎片空间;
4.空间利用率:这里主要是衡量堆空间是否能被有效利用。比如基于复制的算法无论何时都会保持一部分内存是空闲的,那么它的空间利用率就无法达到%,这是由算法本身决定的;
5.是否停顿:Collector在整理内存的时候会存在搬移对象的情况,因为修改指针是一种非常敏感的操作,有时候它会要求Mutator停止工作。是否需要Mutator停顿,以及停顿时长是多少,是否会影响业务的正常响应等。停顿时长在某些情况下是一个关键性指标;
6.实现的复杂度:有些算法虽然看上去很美妙,但因为其实现起来太复杂,代码难以维护,所以无法真正地商用落地。这也会影响到GC算法的选择。
GC算法大致上可以分为引用计数和基于可达性分析的算法两大类。
引用计数法是非常简单高效的,它依然被Python和Swift等语言所使用。而且,引用计数法也不仅仅用在垃圾回收这一个场景。在COM组件编程、Linux内核管理物理页面、C++智能指针等场景都能看到它的身影。虽然现在引用计数法已经不是工业界和学术界研究的重点,但是掌握它仍然具有重要的意义。
引用计数算法
GC算法一个重要的功能是要识别出内存中的哪些对象是垃圾,也就是不会再被使用到的对象。这里就涉及到了垃圾的定义,就是不再被其他对象所引用的对象。从这个定义出发,我们可以想办法统计一个对象是否被引用。如果它被引用的次数大于0,那它就是一个活跃对象;如果它被引用的次数为0,那它就是一个垃圾对象。
为了记录一个对象有没有被其他对象引用,我们可以在每个对象的头上添加一个叫“计数器”的东西,用来记录有多少其他对象引用了它。Mutator在执行的时候会改变这个计数值,比如以下代码:
AobjA=newA();
BobjB=newB();
objA.ref=objB;
执行到第三行的时候,它的引用关系如下图所示:
在这个代码中,第1行创建了一个对象,不妨记为对象a,objA这个变量指向对象a,所以这个对象的引用计数就是1;第2行创建了一个B对象,记为对象b,objB变量指向对象b,此时,它的引用计数为1;第行objA的ref属性也指向对象b,所以对象b的引用计数最终会为2。
Mutator在运行中还会不断地修改对象之间的引用关系,我们知道,这种引用关系的变化都是发生在赋值的时候。例如,接着上面的例子,我们再执行这样一行代码:
objA.ref=null
那么从objA到objB的引用就消失了,也就是上图中,那个从A的ref指向B的箭头就消失了。
对于例子中的赋值语句,如果是Java语言,最终会被翻译成putfield指令,那么JVM在处理putfield指令的时候,就可以加上对引用计数的处理。描述这个过程的伪代码如下所示:
voiddo_oop_store(Value*obj,Valuevalue){
inc_ref(value);
dec_ref(obj);
obj=value;
}
voidinc_ref(Value*ptr){
ptr-ref_cnt++;
}
voiddec_ref(Value*ptr){
ptr-ref_cnt--;
if(ptr-ref_cnt==0){
collect(ptr);
for(Value*ref=ptr-first_ref;ref!=null;ref=ref-next)
dec_ref(ref);
}
}
大多数语言虚拟机(例如Java虚拟机hotspot、CPython虚拟机等)都是使用C/C++来编写的,所以,我们这里的伪代码也使用C语言来描述。
上面的代码展示了在把value赋值给obj这个指针之前,我们必须先改变两个对象的引用计数。一个是obj指针原来指向的对象,它的引用计数要减一,另一个是value对象,它的引用计数加一。如果某个对象的引用计数为0,就把这个对象回收掉(collect方法负责回收内存,根据GC算法的不同,collect的实现会有所不同,所以这里我们只要知道它的功能即可,不必在意它的实现),然后把这个对象所引用的所有对象的引用计数减1。
我们在写一个对象的域的时候做了一些工作,就好比在更新对象域的时候,对这个动作进行了拦截。所以,GC中对这种特殊的操作起了一个比较形象的名字叫writebarrier。这里的barrier是屏障,拦截的意思,中文翻译就是写屏障。
那在do_oop_store里,可不可以先做减,后做加呢?就是说第2行和第行的先后顺序换过来有没有影响呢?答案是不行。因为当obj和value是同一个对象的时候,如果先减后加的话,这个对象就会被回收,内存有可能会被破坏。从而,这个对象就有可能发生数据错误。
到这里,引用计数算法的基本原理就讲完了。接下来,我们就可以使用GC算法的评价标准来分析一下这种GC算法有什么样的优缺点,这样,我们就能知道它适合用在什么场景中了。
引用计数算法的优缺点
从算法描述中容易推知,引用计数具备以下优点:
1.可以立即回收垃圾。因为每个对象在被引用次数为0的时候,是立即就可以知道的,所以一旦一个对象成为垃圾,它将立即被释放;
2.没有暂停时间。对象的回收根本不需要另外的GC线程专门去做,业务线程自己就搞定了,所以引用计数算法不需要停顿时间。
同时,引用计数也存在以下缺点:
1.在每次赋值操作的时候都要做额外的计算。在多线程的情况下,为了正确地维护引用计数,需要同步和互斥操作,这往往需要通过锁来实现,这会对多线程程序性能带来比较大的损失;
2.会有链式回收的情况。比如多个对象对链表形式串在一起,它们的引用计数都为1,当链表头被回收时,整个链表都会回收,这可能会导致一次回收所使用的时间过长;
.循环引用。如果objA引用了objB,objB也引用了objA,但是除此之外,再没有其他的地方引用这两个对象了,这两个对象的引用计数就都是1。这种情况下,这两个对象是不能被回收的。如果说上面两条缺陷还可以克服的话,那么循环引用就是比较致命的。
在使用引用计数算法进行内存管理的语言中,比如Python和Swift,都会存在循环引用的问题。Python在引用计数之外,另外引入了三色标记算法,保证了在出现循环引用的情况下,垃圾对象也能被正常回收。
而Swift则要求程序员自己解开循环引用,也就是将objA对objB的引用设为NULL,这样objA对objB的引用就消失了,objB的引用计数变为1,接下来就可以正常地将两个对象都回收掉了。
综上所述,引用计数实现方便,又可以做到对无用的资源进行立即回收,但它无法应对高并发、高吞吐的场景。