《JVM G1源码分析和调优》读书笔记

GC的相关算法与JVM的垃圾收集器

GC的相关算法

分代管理
复制算法
标记清除
标记压缩

JVM垃圾收集器

P242 表11-1 不同类型垃圾回收期比较

串行收集器 Serial。 Serial GC用于新生代，用了复制算法；Serial Old GC作用于老年代，用的是标记-压缩算法。STW
并行收集器 Parallel。Parallel new作用于新生代，使用了复制算法；Parallel old作用于老年代，用了标记-压缩算法。STW。并发收集是准确收集，不会产生浮动垃圾。
并发收集器 Concurrent-Mark-Sweep。老年代垃圾回收器。使用了标记-清除算法。分为初始标记(Initial-Mark,STW)、并发标记(Concurrent-Mark)、再次标记(Remark,STW)、并发清除(Concurrent-Sweep)。CMS因为需要存储代际的引用关系，所以有额外的存储空间的消耗。CMS不是准确收集，会产生浮动垃圾。
垃圾优先收集器 G1。按照分区进行收集，新生代的分区总是会回收，老生代则是并发标记后选择部分回收效果最好的分区。G1分为三种回收方式：新生代回收young、混合回收(mixed，既收集新生代也收集部分老年代)、FUll GC。新生代回收仅仅在开始前需要STW。混合回收分成两个阶段：并发标记阶段与垃圾回收阶段。并发标记阶段又分四个步骤：初始标记子阶段(initital-mark)、并发标记子阶段(concurrent-mark)、再标记子阶段(remark,STW)、清理子阶段(cleanup,STW)。因分区设计，G1引用关系的存储占用额外空间的消耗较大。G1不是准确收集，会产生浮动垃圾。

G1基本概念

分区

G1是将内存分成一个个小区域使用。这些区域称之为Heap Region。扩展的有YHR(新生代分区)，OHR(老生代分区)，HHR(大对象分区)等等

为了达到分配效率与清理效率的平衡，HR的大小有上下限值，即1MB-32MB。结合整个堆空间分为2048个HR，那么通常G1管理的最大的堆是32MB*2048=64G。

新生代大小

用参数设置使得G1能推断出最大值与最小值

涉及的参数有:

新生代最大值MaxNewSize、最小值NewSize、Xmn(等价于MaxNewSize和NewSize，且MaxNewSize=NewSize)
NewRatio，如果上条参数设置了，则忽略本参数
如果仅仅设置了NewRatio，则新生代最大值与最小值相同：整个堆空间/(newRatio+1)
如果没有设置最大值和最小值，或者只设置了其中一个，那么G1将根据参数G1MaxNewSizePercent(默认60)和G1NewSizePercent(默认是5)占整个堆空间的比例来计算。

如果G1推断出的新生代的最大值与最小值相等，则说明新生代不会动态变化，不会动态变化则可能导致后续新生代GC时不能满足期望的停顿时间，所以有文章提到G1不建议设置Xmn参数。

相关代码在 share/vm/gc_implementation/g1/g1collectorPolicy.cpp

G1启发式推断新生代大小

G1有一个线程专门抽样处理预测新生代列表的长度应该多大，并动态调整。

何时扩展以及一次扩展多少内存？

参数-XX:GCTimeRatio 表示GC与应用的耗费时间的比，G1默认是9。也就是说GC的耗时与应用耗时占比超过10%时，进行动态扩展。扩展大小的参数是G1ExpandByPercentOfAvailable，同时至少大于1MB，至多不能超过当前已经分配的大小的一倍。

代码在 size_t G1CollectorPolicy::expansion_amount()....

该书在第五章讲refine线程时对此点有更详细的阐述

G1停顿预测模型

比较偏数学我就很快跳过去了

G1的预测逻辑是基于衰减平均(Decaying Average)和衰减标准差。

卡表和位图

卡表(CardTable)是CMS中中常见概念之一。我理解成分区间对象引用关系的描述的存放处或者说存放的数据结构。此书也是讲的较为简略，细节可以参见《垃圾回收算法手册：自动内存管理的艺术》

对象头

讲JVM内存模型必讲对象头。可以参见我写的JVM中对象模型及相应名词概念

栈帧、线程等

栈帧可以参见封亚飞写的《揭秘Java虚拟机》第七章 Java栈帧，写的更详细。此书只是一笔带过，看了跟没看没啥差别。

G1的对象分配

快速分配与慢速分配
快速分配通过TLAB(Thread Local Allocation Buffer)实现。TLAB自己的分配是CAS操作。TLAB内部给对象分配是无锁的，因为只有自己线程用嘛。
TLAB机制或产生内存浪费，因为一个对象不会分配在两个TLAB区域，所以TLAB最末端的尾巴区域可能会残留空着。可以通过TLABRefillWasteFraction参数调整，表示允许产生浪费的比例。默认值是64，即表示1/64空间可以浪费。
TLAB大小可以自动调整，但是上限不会超过HR的一半。、
可以使用参数-XX:-ResizeTLAB禁用ResizeTLAB，并使用参数-XX:TLABSize指定一个大小。-XX:+PrintTLAB可以跟踪TLAB工作情况。
一般不建议修改TLAB参数，建议使用默认值

TLAB快速分配的代码在 HeapWord* CollectedHeap::allocate_from_tlab...

G1的Refine线程

先讲Rset

Rset

Rset是干什么用的？

Rset是一种抽象概念，记录了在不同代际之间的引用关系，目的是为了加速GC。
通俗地说，可以用Rset记录从非收集部分指向收集部分的指针集合。对于这种记录述求，有两种方式，一是我引用了谁，称为Point Out；一是谁引用了我，称为Point In。G1采用后者。
G1中需要记录代际之间的引用关系包括：老生代分区到新生代分区之间的引用关系(YGC时，这个引用关系是GC Roots的一部分，老生代引用过来的不能被回收掉嘛...)；老生代分区到老生代分区之间的引用关系(混合GC时用)
Rset与卡表的关系参见P68图4-1
G1引入了PRT，TODO：没看太懂
DCQ与Refinemnet zone的四色区域没看太懂

Rset写屏障

为啥谈到写屏障，因为Refine是线程关注的是应用关系的变更，但是他是如何识别引用关系的变更的呢？就是靠写屏障完成。下面讲写屏障相关要点：

写屏障这个词我不知道为啥这样命名，直觉上不好理解。
我对其的理解就是，写操作前后的拦截器处理。比如我对字段赋值putfield，在赋值前我要告诉DCQ这个对象被我引用了，这就是写屏障动作。
书上的说法：写屏障是指在改变特定内存的值时，额外执行的一些动作。
CMS是通过写屏障记录引用刮不洗，G1也是。
写屏障会有优化，不是所有的引用关系变更都会被记录。
- 不记录新生代到新生代的引用，或者新生代到老生代的引用，在写屏障时过滤
- 过滤掉同一个分区内部引用，在Rset处理时过滤
- 过滤掉空引用，在Rset处理时过滤

Refine线程

Refine线程是一组，是一个线程池，不是一个。
我对他的理解是，一个线程用于抽样，主要作用设置新生代分区的个数。其余线程用于管理Rset，Rset的更新不是同步完成的，是靠Refine线程异步完成的，异步又是靠DCQ dirty card queue队列暂存过渡的。
Refine涉及的JVM比较复杂，未细细研究
相关参数：可以通过-XX:+G1TraceConcRefinement观察Refine线程工作情况。通过-XX:+G1SummarizeRSetStats观察Rset更新。

新生代回收

上面已经讲了，G1 GC分三种： 新生代回收young、混合回收(mixed，既收集新生代也收集部分老年代)、FUll GC

步骤：

选择CSet
根处理
Rset处理
复制
Redirty 重构Rset
释放空间

参数调优

混合回收

混合回收分成两个阶段：

并发标记阶段
垃圾回收阶段(与新生代回收一致)

并发标记阶段又分四个步骤：

初始标记子阶段(initital-mark)
并发标记子阶段(concurrent-mark)
再标记子阶段(remark,STW)
清理子阶段(cleanup,STW

并发标记的难点：

正在标记过程中的对象引用关系发生了改变。

通过三色标记法与STAB算法结合写屏障完成。

写屏障代码在 oop_store中,oop.inline.hpp

参数调优

Full GC

JDK10之前FGC是串行的，JDK10之后支持并行。

代码在 G1CollectedHeap::do_collection

串行回收采用标记清除算法，步骤：

标记活跃对象
计算新对象地址
把所有对象都更新到新地址上
移动对象完成压缩

G1调优

主要涉及的指标有：吞吐量最大、停段时间尽量端、GC频率尽量低和堆空间的有效利用率高。

主要调优参数参见P244 表11-2，主要涉及堆、RSet、标记和GC四个方面的参数。