理解JVM之垃圾收集器概述

前言

很多人将垃圾收集(Garbage Collection)视为Java的伴生产物，实际1960年诞生的Lisp是第一门真正使用内存动态分配与垃圾手机技术的语言。在目前看来，内存的动态分配与内存回收已经相当成熟，但了解GC与内存分配还是非常有必要的，当排查内存溢出、内存泄漏问题，当垃圾手机称为系统高并发的瓶颈时，就需要我们对其实施必要的监控与调节。
在前面的篇章中我们了解到Java的运行时区域中的程序计数器、虚拟机栈、本地方法栈的内存分配与回收具有确定性，但Java堆不同，这部分内存的分配与回收都是动态的，因而垃圾收集器关注的就是这部分内存。

一、对象的生与死

堆中几乎存放着Java中的所有的对象实例，但在对堆进行回收前，首先要确定对象的“生死”，下面就这方面进行讲解：

1、引用记数算法

很多书籍中判断对象存活方法的判断：给对象中添加引用计数器，每当一个地方引用它，计数器值加1；当引用失效，计数器值减1；任何时刻都为0的对象时不能再使用的。引用计数算法应用于python,FlashPlayer及Squirrel中，但Java却没有选用引用计数器算法管理内存，最主要的原因是它很难解决对象之间相互循环引用的问题。

2、根搜索算法

主流的商用程序语言(Java、C#、Lisp)都使用根搜索算法(GC Roots Tracing)判定对象是否存活，又称为可达性分析算法。算法的基本思路是通过一系列名为"GC Roots"的对象作为起始点，从这些节点开始向下搜索，搜索所走过的路径称为引用链(Reference Chain)，当一个对象GC Roots没有任何引用链相连(用图论的表示从GC Roots都这个对象不可达)时，则证明此对象不可用。如下图所示，object4,object5,object6相互关联，但到GC Roots不可达，因而可判定为可回收对象。

Java中，可作为GC Roots的对象一般包括下面几种：

虚拟机栈(栈帧中的本地变量表)中的引用的对象
方法区中的类静态属性的引用对象
方法区中的常量引用的对象
本地方法栈中的JNI(Native方法)的引用对象。

3、引用的理解

无论时引用计数算法还是根搜索算法，判断对象存活都与引用相关。JDK1.2之前对Java的引用定义：如果reference类型的数据中存储的数值代表另一块内存的起始地址，称这块内存代表一个引用。这种定义过于狭隘，一个对象这种定义下只有引用或没被引用两种状态，这再很多应用场景下是无法描述的。JDK1.2之后，Java对应用概念进行了扩充，将引用分为强引用(Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、需引用(Phantom Reference)四种，且强度依此减弱。

强引用
强引用是指程序代码之中普遍存在的，类似“Object obj = new Object()”的引用，只要强引用存在，垃圾收集器永远不会回收掉被引用的对象。
软引用
软引用用来描述一些非必需的有用对象。在系统将要发生内存溢出异常之前，会把软引用关联的对象列进回收范围之中并进行第二次回收。若此次回收没有足够的内存，才会抛出内存溢出异常。
弱应用
弱引用描述非必需对象，被弱引用关联的对象只能生存到下一次垃圾收集发生前，当垃圾回收时，无论内存是否足够，都会回收掉只被若引用关联的对象。
虚引用
虚引用也称为幽灵引用或幻影引用，一个对象是否有虚引用的存在，完全不会对其生存时间构成影响，也无法通过虚引用取得一个对象实例。对对象设置虚引用关联的唯一目的是希望在这个对象被收集器收集回收时收到一个系统通知。JDK1.2之后，提供了PhantomReference类来实现虚引用。

4、生存死亡的判断

在根搜索算法中不可达的对象，并非是“必死”的，暂时处于“缓刑”阶段一个对象正式死亡，要经理至少两次标记过程。首先如果在进行根搜索后没有发现与GC Roots相连的引用链，它将会被第一次标记并进行一次筛选，筛选的条件是该对象是否有必要执行finalize()方法。当对象没有覆盖finalize()方法，或finalize()方法已被虚拟机调用过，则虚拟机认定该对象为“没有必要执行”。若该对象被判定为有必要执行finalize()方法，那对象将被放置在一个名为F-Quenue队列中，并在稍后由一条虚拟机自动建立的，低优先级的Finalizer线程执行。这里的“执行”是指虚拟机会触发finalize()方法，但并不承诺会等待方法运行结束。
这是因为若在执行过程中出现某对象的finalize()方法执行缓慢或发生死循环，队列中的其他对象将会永久处于等待状态，甚至导致内存回收系统崩溃。finalize()方法是对象逃脱死亡的最后一次机会，稍后GC将对F-quene的对象进行第二次小规模标记，若要逃脱死亡命运，只需重新与引用链上的任意对象关联即可，如此，在第二次标记时它将被移出即将回收集合。还没有逃脱的对象只能静静等待死亡的到来。

5、回收方法区

很多人认为方法区(HotSpot中的永久代)是没有垃圾收集的，Java虚拟机规范中不要求在方法区实现垃圾收集，且在方法区进行垃圾收集的性能低。永久代的垃圾收集处理的主要是：废弃常量和无用的类。回收常量与Java堆中对象相似。常量池中的回收是判断是否由其他对象引用常量池中的常量，若没有，若此时发生内存回收，此常量将被清出常量池。而对于无用的类的判断条件则相对苛刻，需满足三个条件：

此类所有实例已被回收，即堆中不存在此类的任何实例
加载该类的ClassLoader已被回收
此类对应的java.lang.Class对象没有任何地方被引用，无法在任何地方通过反射访问该类的方法。

虚拟机可堆满足条件的无用类进行回收，但具体是否回收，需虚拟机提供的参数-Xnoclassgc进行控制，hai可查看类的加载与卸载信息，在大量使用反射、动态代理等场景及频繁定义ClassLoader的场景需要具备类卸载功能，保证永久代不会溢出。

二、垃圾收集算法

下面就几种算法的思想及发展过程进行介绍。

1、标记 — 清除算法

标记清除算法(Mark-Sweep)算法是最基础的收集算法，它分为“标记”和“清除”两部分：首先标记出所有需回收的对象，在标记完成后统一回收掉所有被标记的对象，他的标记过程就是对象的标记判定的过程。后续的收集算法都是基于这种思路并堆其缺点进行改进得到的。它的缺点有两个：效率，标记与清除的过程效率都不高；空间，标记清除后产生大量的不连续内存碎片，空间碎片过多可能导致程序运行分配较大对象时无法找到足够的连续内存提前出发另一次垃圾收集。下图为标记清除算法示意图：

2、复制算法

为解决效率问题，出现复制收集算法(Copying)，它将可用内存按容量划分为大小相等的两块，每次使用其中一块，当一块用完，将活着的对象复制到另一块上，将已使用过的内存空间一此清理掉。使得每次都是堆其中一块进行内存回收，就可以忽略了内存碎片的复杂情况，只需移动堆顶指针，按顺序分配内存。算法的代价是将内存缩小为原来的一半，算法执行过程如图所示。

当前商业虚拟机采用此算法回收新生代，由于新生代的对象98%是朝生夕死，因而秩序将内存分为一块较大的Eden空间和两块较小的Survivor空间，每次使用Eden和一块Survior。回收时，将Eden和Survivor存活的对象一次拷贝到另一块Survivor空间上，最后清理掉Eden和刚才使用过的Survivor空间。Eden和Survivor大小比例为8：1，每次新生代可用内存空间为90%，但98%回收只是一般情况，若Survivor空间不够用，需要依赖其他内存(老年代)进行分配担保，即通过分配担保机制进入老年代。

3、标记 — 整理算法

复制收集算法在对象存活率较高时就执行较多的复制操作，效率将会变低，更关键的是，需要额外的空间进行分配担保，以应对所有对象都存活的极端情况，所以老年代一般不直接选用此算法。针对老年机的特点，又提出了”标记整理(Mark-Compact)“算法，标记过程与”标记-清除算法一致“，后续步骤是直接堆可回收的对象进行清理，让所有存活对象向一端移动，直接清理掉端界面以外的内存，标记-整理算法示意图如图所示：

4、分代收集算法

目前的商用虚拟机垃圾收集采用的是“分代收集(Generational Collection)”算法，它根据对象的存活周期的不同将内存划分为几块，一般把Java堆分为新生代和老年代，可根据各个年代的特点采用最合适的收集算法。在新生代中，对象死亡多，存活少，采用复制算法，付出少量复制成本完成收集。老年代存活率高、没有额外空间进行分配担保，使用”标记-整理“或”标记-清理“算法进行回收。

本文主要参考自《深入理解Java虚拟机——JVM高级特性与最佳实践》一书
另部分图片参考文章：
https://blog.csdn.net/u011116672/article/details/50994105