垃圾收集器与内存分配策略

垃圾回收

　　引用计数算法

　　　　给对象中添加一个引用计数器，每当有一个地方引用它时，计数器值加1，当引用失效时，计数器值减1；任何时刻计数器为0的对象就是不再被使用的。但无法解决对象之间相互循环引用的问题。

　　可达性分析算法

　　　　通过一系列的GC Roots的对象作为起始点，从这些节点开始想下搜索，搜索所走过的路径成为引用链，当一个对象那个到GC Roots没有任何引用链相连时，则证明此对象是不可用的。在Java语言中，可作为GC Roots的对象包括：虚拟机栈中引用的对象；方法区中类静态属性引用的对象；方法区中常量引用的对象和本地方法栈中JNI引用的对象。

　　Java将引用分为强引用(Strong Reference)，软引用(Soft Reference)，弱引用(Weak Reference)和虚引用(Plantom Reference)4种。

　　　　强引用是指在程序代码之中普遍存在的，类似new Object这类生成的引用，只要强引用还存在，垃圾收集器就不会回收掉被引用的对象

　　　　软引用是用来描述一些还有用但非必须的对象。对于软引用关联着的对象，在系统将要发生内存溢出异常之前，将会把这些对象列进回收范围之中进行第二次回收。若这次回收还没有足够的内存，才会抛出内存异常

　　　　弱引用也是用来描述非必需对象的，但是它的强度比软引用更弱一些，被弱引用关联的对象只能生存岛下一次垃圾收集发生之前。当垃圾收集器工作时，无论当前内存是否足够，都会回收掉只被弱引用关联的对象

　　　　虚引用也被称为幽灵引用或幻影引用，它是最弱的一种引用关系。一个对象是否有虚引用的存在，完全不会对其生存时间构成影响，也无法通过弱引用来获取一个对象实例。为一个对象设置虚引用关联的唯一目的就是能在这个对象被收集器回收时收到一个系统通知

　　可达性分析算法中不可达的对象，也并非是“非死不可”的，此时处于“缓刑”阶段，要真正宣告一个对象死亡，至少要经历两次标记过程：若对象在进行可达性分析后发现没有与GC Roots相连接的引用链，那它将会被第一次标记并且进行一次筛选，筛选的条件是此对象是否有必要执行finalize()方法。当对象没有覆盖finalize()方法，或finalize()方法已被虚拟机调用过，虚拟机将这两种情况都视为“没必要执行”。若这个对象被判定为有必要执行finalize()方法，那么这个对象将会放到F-Queue的队列中，并在稍后由一个由虚拟机自动建立的，低优先级的Finializer线程去执行。GC将对F-Queue中的对象进行第二次小规模的标记，若对象要在finalize()之前成功重新与引用链上的任何一个对象建立关联，那么它将被移除处“即将回收”的集合。对象的finalize()方法只会执行一次，若对象面临第二次回收，finalize()方法将不会再被执行。

　　Mark-Sweep算法

　　　　标记清除算法分为标记和清除两个阶段：首先标记出所有需要回收的对象，在标记完成后统一回收所有被标记的对象。标记清除算法有两个不足：标记和清除两个过程的效率都不高；标记清除后产生大量不连续的内存碎片，空间碎片太多可能会导致以后再运行过程中需要分配较大对象时，无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。

　　Copying算法

　　　　复制算法将可用内存按容量划分为大小相等的两块，每次只是用其中的一块。当这一块的内存用完了，就讲还存活着的对象复制到另一块上，然后把已经使用过的内存空间一次清理掉。这样每次都只对半个区进行内存回收，内存分配时就不用考虑内存碎片等复杂情况，只要移动堆顶指针，按顺序分配内存即可，实现简单，运行高效。现在的商业虚拟机都采用这种收集算法来回收新生代。IBM将内存分为一块较大的Eden空间和两块较小的Survivor空间，每次使用Eden和其中一块Survivor。当回收时，将Eden和Survivor中还存活着的对象一次性复制到另一块Survivor空间上，最后清理掉Eden和刚才用过的Survivor空间。HotSpot虚拟机默认Eden和Survivor的大小比利是8：1。当Survivor空间不够时，需要依赖其他内存进行分配担保。

　　Generational Collection算法

　　　　把Java堆分为新生代和老年代。在新生代中，每次垃圾收集时都会发现大批对象死去，只有少数存活，此时选用复制算法，只需要付出少量存货对象的复制成本就可以完成收集。而老年代中因为对象存活率高，没有额外空间对它进行分配担保，就必须使用“标记-清理”或“标记-整理”算法来进行回收。

　　HotSpot算法实现

　　　　在HotSpot的实现中，它使用一组称为OopMap的数据结构来得知那些地方存放着对象引用。在类加载完成时，HotSpot就把对象内什么偏移量上是什么类型的数据计算出来，在JIT编译过程中，也会在特定的位置记录下栈和寄存器中哪些位置是引用。GC在扫描时就可以知道这些信息了。这些特定位置称为安全点(SafePoint)，即程序执行时并非在所有地方都能停下来开始GC，只有在到达安全时才能暂停。安全点的选定基本上是以程序"是否具有让程序长时间执行的特征"为标准进行选定的。“长时间执行”的最明显特征是指令序列复用，如方法调用，循环跳转，异常跳转等，所以具有这些功能的指令才会产生SafePoint。有两种方案可以让所有线程跑到最近的安全点上停顿下来——抢先式中断（Preemptive Suspension）和主动式中断（Voluntary Suspension）。抢先式中断不需要线程的执行代码主动去配合，在GC发生时，首先把所有线程全部中断，若发现有线程中断的地方不在安全点，就恢复线程，让它跑到安全点上。现在几乎没有虚拟机实现采用抢先式中断来暂停线程从而响应GC事件。主动式中断的思想是当GC需要中断线程时，不直接对线程操作，仅仅简单地设置一个标志，各个线程执行时主动去轮询这个标志，发现中断标志位真时就自己中断挂起。轮询标志的地方和安全点是重合的。安全点只能解决线程正在执行的状况，但是当线程挂起时，需要安全区域(Safe Region)来解决。安全区域是指在一段代码片段中，引用关系不会发生变化。在这个区域中的任意地方开始GC都是安全点。在线程执行到Safe Region中的代码时，首先标识自己已经进入了Safe Region，当在这段时间里JVM要发起GC时，就不用管自己为Safe Region状态的线程了。在线程要离开Safe Region时，它要检查系统是否已经完成了根节点枚举，若完成了，那线程就继续执行，否则就必须等待知道收到可以安全离开Safe Region的信号为止

回收方法区

　　在方法区中进行垃圾收集的性价比比较低。永久代的垃圾收集主要回收两部分内容：废弃常量和无用的类。判断一个常量是否是废弃常量就是看当前系统中有没有一个对象引用常量池中的该变量。判断一个类是无用类则需要满足三个条件：该类所有的实例都已经被回收，即Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。

垃圾收集器

　　Serial

　　　　Serial是个单线程的收集器，它在进行垃圾收集时必须暂停其他所有的工作线程，直到它收集结束。Serial对于单个CPU环境来说，没有现成交互的开销，所以效率很高。

　　ParNew

　　　　ParNew是Serial收集器的多线程版本。目前除了Serial收集器外，只有它能与CMS收集器配合工作。

　　Parallel Scavenge收集器

　　　　Parallel Scavenge是一个新生代收集器，它也是使用复制算法的收集器，同时也是并行的多线程收集器。Parallel Scavenge收集器的特点是它的关注点与其他收集器不通，CMS等收集器关注点是尽可能地缩短垃圾收集时用户线程的停顿时间，而Parallel Scavenge收集器的目的是达到一个可控制的吞吐量(Throughput)。吞吐量即CPU用于运行用户代码的时间与CPU总消耗时间的比值(运行用户代码+垃圾收集时间)。Paralle Scavenge收集器提供了两个参数用于精确控制吞吐量，分别是控制最大垃圾收集停顿时间-XX:MaxGCPauseMillis以及直接设置吞吐量大小的-XX:GCTimeRatio参数。MaxGCPauseMiilis参数允许的值是一个大于0的毫秒数，收集器将尽可能地保证内存回收花费的时间不超过设定值。GC停顿时间缩短就以牺牲吞吐量和新生代空间来换取的。-XX:+UseAdaptiveSizePolicy这个开关打开之后，就不需要手工指定新生代的大小，Eden与Survivor区的比例，晋升老年代对象年龄等细节参数，虚拟机会根据当前系统的运行情况收集性能监控信息，动态调整这些参数已提供最合适的停顿时间或最大的吞吐量，这种调节方式成为GC自适应的调节策略。

　　Serial Old收集器

　　　　Serial Old是Serial收集器的老年代版本，同样是个单线程收集器，使用“标记-整理”算法、这个手机器主要在于个Client模式下的虚拟机使用。在Server模式下，Serial Old主要有两大用途：一种是在JDK1.5及之前的版本中与Parallel Scavenge收集器搭配使用，另一种用途是作为CMS收集器的后备预案，在并发手机发生Concurrent Mode Failure时使用。

　　Parallel Old收集器

　　　　Parallel Old是Parallel Scanvenge收集器的老年代版本，使用多线程和“标记-整理”算法。

　　CMS收集器

　　　　CMS(Concurrent Mark Sweep)收集器时一种以获取最短回收停顿时间为目标的收集器。CMS是基于“标记-清除”算法实现的，它的运作过程分为4个步骤：初始标记(CMS initial mark)，并发标记(CMS concurrent mark)，重新标记(CMS remark)和并发清除(CMS concurrent sweep)。其中初始标记和重新标记两个步骤仍需要“Stop The World”。初始标记仅仅只是标记下GC Roots能直接关联到的对象，速度很快，并发标记阶段就是进行GC Roots Tracing的过程，而重新标记阶段则是为了修正并发标记期间因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录，这个阶段的停顿时间一般会比初始标记阶段稍长一些，但远比并发标记的时间短。在整个过程中耗时最长的并发标记和并发清除过程收集器线程都可以与用户线程一起工作，所以总体上来说，CMS收集器的内存回收过程是与用户线程一起并发执行的。CMS有3个明显缺点：CMS收集器对CPU资源非常敏感。在并发阶段，虽然不会导致用户线程停顿，但会因为占用了一部分线程而导致应用程序变慢，总吞吐量会降低。CMS默认启动的回收线程数是(CPU数量+3)/4。即当CPU在4个以上时，并发回收垃圾手机线程不少于25%的CPU资源，并且随着CPU数量的增加而下降。但当CPU不足4个时，CMS对用户程序的影响就可能变得比较大。为了应付这种情况，虚拟机提供了一种称为“增量式并发收集器”(Increamental Concurrent Mark Sweep)的CMS收集器变种，所做的事情和单CPU粘单PC机操作系统使用抢占式来模拟多任务机制的思想一样，在并发标记，清理时让GC线程，用户线程交替运行，尽量减少GC线程的独占资源的时间，实践证明，i-CMS效果一般，已被声明为deprecated，即不再提倡用户使用。CMS收集器无法处理浮动垃圾(Floating Garbage)，可能会出现“Concurrent Mode Failure”失败而导致另一次Full GC的产生。由于CMS并发清理阶段用户线程还在运行，还有新的垃圾不断产生，这一部分垃圾在标记过后，CMS只能在下一次GC时再清理掉，这部分垃圾被称为“浮动垃圾”。由于在垃圾收集阶段用户线程还需运行，还需要预留有足够的内存空间给用户线程使用。CMS是基于“标记-清除”算法实现的收集器，这样收集结束后会有大量空间碎片产生。空间碎片过多时，将无法为大对象分配空间，从而导致提前触发一次Full GC。CMS收集器提供一个-XX:+UseCMSCompactAtFullCollection开关参数，用于在CMS要进行FullGC时开启内存碎片的合并整理过程。内存整理过程是无法并发的，空间碎片没有了，但停顿时间不得不变长。-XX:CMSFullGCsBeforeCompaction用于设置执行多少次不压缩的Full GC后，进行一次带压缩的

　　G1收集器

　　　　G1(Garbage-First)是一款面向服务端应用的垃圾收集器。GI具备以下特点：

　　　　　　并行与并发：G1能充分利用多CPU，多核环境下的硬件条件，使用多个CPU来缩短Stop-The-World停顿的时间

　　　　　　分代收集：G1虽然可以不需要其他收集器配合就能独立管理整个GC堆，但它能采用不同的方式去处理新创建的对象和已经存活了一段时间，熬过多次GC的旧对象

　　　　　　空间整合：与CMS的“标记—清理”算法不同，G1从整体来看是基于“标记—整理”算法实现的收集器，从局部来看是基于“复制”算法实现的，但无论如何，这两种算法都意味着G1运作期间不会产生内存空间碎片，收集后能提供规整的可用内存。这种特性有利于程序长时间运行，分配大对象时不会因为无法找到连续内存空间而提前触发下一次GC。

　　　　　　可预测的停顿：G1可建立可预测的停顿时间模型，能然使用者明确指定在一个长度为M毫秒的时间片段内，消耗在垃圾收集上的时间不得不超过N毫秒

　　　　G1将整个Java堆划分为多个大小相等的独立区域(Region)，虽然还保留有新生代和老年代的概念，但新生代和老年代不再是物理隔离的了，他们都是一部分Region的集合。G1可以避免在整个Java堆中进行全区域的垃圾收集。G1跟踪各个Region里面的垃圾堆积的价值大小(回收所获得的空间大小及回收所需时间的经验值)，在后台维护一个优先列表，每次根据允许的收集时间，优先回收价值最大的Region。Region不可能是孤立的，一个对象分配在某个Region中，它并非只能被本Region中的其他对象引用，而是可以与整个Java堆任意的对象发生引用关系，这样在做可达性判断确定对象是否存活的时候，还需要扫描整个Java堆。在G1收集器中，Region之间的对象引用以及其他收集器中的新生代与老年代之间的对象引用，JVM是使用Remembered Set来避免全对扫描的。G1中每个Region都有一个与之对应的Remembered Set，JVM发现程序在对Reference类型的数据进行写操作时，会产生一个Write Barrier暂时中断写操作，检查Reference引用的对象是否处于不同的Region之中。若是，便通过CardTable把相关引用信息记录到被引用对象所属的Region的Remembered Set中。当进行内存回收时，在GC根节点的枚举范围中加入Remembered Set即可保证不对全堆扫描也不会有遗漏。

　　　　若不计算维护Remembered Set的操作，G1收集器的运作大致可划分为以下几个步骤：初始标记(Initial Marking)，并发标记(Concurrent Marking)，最终标记(Final Marking)，筛选回收(Live Data Counting and Evacuation)。初始标记阶段仅仅是标记一下GC Roots能直接关联到的对象，并且修改TAMS(Next Top at Mark Start)的值，让下一阶段用户程序并发运行时，能在正确可用的Region中创建新对象，这阶段需要停顿线程，但耗时很短。并发标记阶段是从GC Root开始对堆中对象进行可达性分析，找出存活的对象，这阶段耗时较长，但可与用户程序并发执行。而最终标记阶段则为了修正在并发标记期间因用户程序继续运作而导致标记产生变动的那一部分标记记录，虚拟机将这段时间对象变化记录在线程Remembered Set Logs里面，最终标记阶段需要把Remembered Set Logs的数据合并到Remembered Set中，这阶段需要停顿线程，但可并行执行。最后在筛选回收阶段首先对各个Region的回收价值和成本进行排序，根据用户所期望的GC停顿时间来制定回收计划。

　　垃圾收集器参数总结

参数	描述
UseSerialGC	虚拟机运行在Client模式下的默认值，打开此开关后，使用Serial + Serial Old的收集器组合进行内存回收
UseParNewGC	打开此开关后，使用ParNew + Serial Old的收集器组合进行内存回收
UseConcMarkSweepGC	打开此开关后，使用ParNew + CMS + Serial Old的收集器组合进行内存回收。Serial Old收集器将作为CMS收集器出现Concurrent Mode Failure失败后的后备收集器使用
UseParallelGC	虚拟机运行在Server模式下的默认值，打开此开关后，使用Parallel Scavenge + Serial Old(PS Mark Sweep)的收集器组合进行内存回收
SurvivorRatio	新生代中Eden区域与Survivor区域的容量比值，默认是8，代表Eden:Survivor = 8 : 1
PretenureSizeThreshold	直接晋升到老年代的对象大小，设置这个参数后，大于这个参数的对象直接在老年代分配
MaxTenuringThreshold	晋升到老年代的对象年龄。每个对象在坚持过一次Minor GC之后，年龄就会增加，当超过这个参数值时就进入老年代
UseAdpativeSizePolicy	动态调整Java堆中各个区域的大小以及进入老年代的年龄
HandlePromotionFailure	是否允许分配担保失败，即老年代的剩余空间不足以应付新生代的整个Eden和Survivor区的所有对象都存活的极端情况
ParallelGCThreads	设置并行GC时进行内存回收的线程数
GCTimeRatio	GC时间占总时间的比率，默认值为99，即允许1%的GC时间。仅在使用Parallel Scavenge收集器时生效
MaxGCPauseMillis	设置GC的最大停顿时间。仅在使用Parallel Scavenge收集器时生效
CMSInitiatingOccupancyFraction	设置CMS收集器在老年代空间被使用多少后触发垃圾收集。默认值为68%，仅在CMS收集器时生效
UseCMSCompactAtFullCollection	设置CMS收集器在完成垃圾收集后是否要进行一次内存碎片整理，仅在使用CMS收集器时生效
CMSFullGCsBeforeCompaction	设置CMS收集器在进行若干次垃圾收集后在启动一次内存碎片整理了。仅在使用CMS收集器时生效

　　新生代GC(Minor GC)：发生在新生代的垃圾收集动作。

　　老年代GC(Major GC/ Full GC)：发生在老年代的GC，出现了Major GC，经常会伴随至少一次的Minor GC。Major GC的速度一般会比Minor GC慢10倍以上

　　内存分配与回收策略

　　　　Java技术体系中所提倡的自动内存管理最终可以归结为自动化地解决了两个问题：给对象分配内存以及回收分配给对象的内存。对象的内存分配主要在新生代Eden区上，若启动了本地线程分配缓冲，将按线程优先在TLAB上分配。少数情况也可能直接分配在老年代中。　　

　　　　对象优先在Eden分配：大多数情况下，对象在新生代Eden区中分配。当Eden区没有足够空间进行分配时，虚拟机将发起一次Minor GC。虚拟机提供了-XX:+PrintGCDetails这个收集器日志参数，告诉虚拟机在发生垃圾收集行为时打印内存回收日志，并在进程退出的时候输出当前的内存各区域分配情况。

　　　　大对象直接进入老年代：大对象是指需要大量连续内存空间的java对象。虚拟机提供了一个-XX:PretenureSizeThreshold参数，令大于这个设置值的对象直接在老年代分配。

　　　　长期存活的对象将进入老年代：虚拟机给每个对象定义了一个对象年龄计数器。若对象在Eden出生并经过第一次Minor GC后仍存活，并且能被Survivor容纳的话，将被移动到Survivor空间中，并且对象年龄设为1。对象在Survivor区中每“熬过”一次Minor GC，年龄就增加1岁，当它的年龄增加到一定程度(默认15岁)，就将会被晋升到老年代中。可以通过-XX:MaxTenuringThreshold设置对象晋升老年代的年龄阈值。

　　　　动态对象年龄判定：虚拟机并不是永远地要求对象的年龄必须达到MaxTenruingThreshold才能晋升到老年代。若在Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半，年龄大于或等于该年龄的对象就可以直接进入老年代，无需等待MaxTenuringThreshold中要求的年龄。

　　　　空间分配担保：在发生Minor GC之前，虚拟机会先检查老年代最大可用的连续空间是否大于新生代所有对象的总空间。若这个条件成立，那么Minor GC可以确保是安全的。若不成立，则虚拟机会查看HandlePromotionFailure设置值是否允许担保失败。若允许，那么会继续检查老年代最大可用的连续空间是否大于历次晋升到老年代对象的平均大小，若大于，将尝试着进行一次Minor GC，尽管这次Minor GC是有风险的；若小于或HandlePromotionFailure设置不允许冒险，此时要改为一次Full GC。新生代采用复制收集算法，但为了内存的利用率，只使用其中一个Survivor空间来作为轮换备份，因此当出现大量对象在Minor GC后仍然存活的情况，就需要老年代进行分配担保，把Survivor无法容纳的对象直接进入老年代。取平均值进行比较仍然是一种动态概率的手段，若某次Minor GC存活的对象突增，远高于平均值的话，依然会导致担保失败(Handle Promotion Failure)。若出现了Handle Promotion Failure失败，只好重新发起一次Full GC。