目录
前言
分代垃圾收集理论
标记清除算法
标记复制算法
标记整理法
前言
从对象消亡的角度出发, 垃圾回收器可以分为引用计数式垃圾收集和追踪式垃圾收集两大类, 但是java主流的一般是追踪式的垃圾收集器, 因此我们重点讲解.
分代垃圾收集理论
分代收集这种理论其实就是在说两件事:
- 绝大多数的对象都是朝生夕灭
- 熬过多次GC的对象就越是难以消亡
这两个理论将java的堆区划分为了不同的区域, 难以消亡的对象放在一起, 形成类似于老年代这种的内存区域, 这样的内存区域, 垃圾回收的频率小, 存活的对象数量占比整个老年代高. 然后把那些熬不过垃圾回收的放在一起, 然后标记其中少了不需要回收的对象, 然后将其余的回收即可. 通过这种分代的设计, 其实就可以给不同的内存区域以合适的GC频率. 来较低由垃圾回收器带来的性能消耗和空间的消耗.
分了代之后, 垃圾回收器就可以根据不同的年龄代的内存区域进行独立的回收, 例如可以单独对年龄小的类对象进行回收, 老年代的可以稍后或者在需要的时候进行回收.
在商用的java里面, 设计者至少会将java堆区分为两个年代的区域: 新生代, 老年代:
- 新生代: 对象朝生夕灭, 存活概率低, 这个区域每次GC都有大量的对象死去, 存活下来的才有机会进入老年代
- 老年代: 对象的存活几率大, 每次GC都有大量的对象存活.
但是分代收集也并非只是简单的对一个内存区域根据对象的存活概率来进行划分, 还需要考虑很多额外的事情, 例如老年代中可能会存在对象依赖新生代中的对象, 因此其实你无法直接清理掉新生代中某些已经被老年代中的对象引用的对象. 你必须查看老年代, 看有没有对象引用它.
遍历整个老年代无疑是给系统增加了非常多的负担, 但是其实实际上, 老年代中引用新生代中的对象的例子很少, 并且一般情况下, 如果新生代中的对象死亡, 那么依赖这个新生代对象的老年代中的对象, 也应该跟它一样倾向于死亡.
如果新生代中的对象 , 因为老年代中对象的引用导致这个对象一只没有被GC, 那么就会慢慢升级到老年代, 以至于和同尊级别相同, 都为老年代. 跨时代的引用就消失了.
在实际上跨代引用的对象其实很少, 因此我们只需要特别标记出一块特别的内存区域, 用来表示这个区域里面的年龄大的对象是具有新生代对象引用的对象, 然后在进行回收新生代的时候, 只需要在一小块的老年代内存中查找是否具有新生代引用的对象即可.
再细一点, 你可以将老年代划分为多个内存区域, 然后标记处那些具有新生代引用的内存区域, 扫描的时候, 也只需要扫描那些具有标记的内存区域即可, 但是在扫描的过程中, 可能会出现一种情况, 那就是扫描的时候需要维护数据的正确性, 也就是保证扫描的时候,, 其引用被修改了, 例如扫描之前一个老年代对象本来是引用了一个新生代的对象, 但是这个新生代对象在扫描其老年代的时候, 这个老年代的对象引用了另外一个对象, 而不是当前需要扫描其老年代引用的对象.
标记清除算法
最基础的垃圾收集算法, 简单来说就是先标记出所有的需要回收的对象, 然后在清理阶段, 清理掉被标记的对象, 反之亦可. 好处就是逻辑简单, 不需要修改修改其他地方对没有被回收对象的引用.
其算法的思路逻辑简单, 但是有一个缺点, 那就是不稳定, 你永远不能保证, 你所标记的对象只是少数, 在大量的对象被标记并需要被回收的时候, 会导致标记和执行的效率会非常慢, 第二个是如图所示, 因为对象是直接清除, 而不是将空闲的内存整理到一边, 被使用的内存整理到另外一边, 因此内存会出现很多碎片,
如果由于过多的碎片, 导致新建的对象无法找出一块足够大小的连续的内存, 就又不得不触发一次GC, 但是再一次GC之后会不会出现足够大的能容下新对象的内存, 还是个未知数 ...
标记复制算法
简称复制算法, 核心思路就是 将一个内存划为两块大小相同的空间, 在一次GC之前, 只是用其中的一块, 用到差不多了的时候, 需要GC了, 就以此找出里面没有被标记需要回收的对象, 然后将其规整的复制到另外一边, 避免了其内存碎片的产生, 然后复制完之后, 直接就可以清理掉被复制的那块内存, 然后新建对象就可以在规整的内存的那一边进行创建.
只要是标记, 就要关注被标记为需要回收的对象的数量, 如果数量太多, 依然会因为标记和清理而影响性能, 同时如果大量对象都是存活的话, 还需要将大量的对象都复制到内存的另外一边, 这就额外造成了性能的消耗. 同时移动对象的内存地址之后, 还需要去修改引用其对象的局部变量或则好常量等. 而且可用的空间, 被缩小了一半.
但是这种方法避免的内存碎片的产生.
但是实际情况确实, 每次回收其实只有少部分对象存活, 例如100个对象中, 一次GC后可能只剩下了10个对象左右, 保守一点, 我们可以将内存区域的划分为 8 : 2, 也就是每次新建的时候, 将新生代分为两部分, 新建的对象都在8这个占比的区域中, 然后等要到了GC的时候, 就将存活的对象规整的复制到2成内存占比的空间中, 修改引用地址之后, 直接将8成的内存空间直接释放掉即可.
有的也可以将内存划为3块, 一块占比为80%, 另外两块分别占比10%, 我们分配内存, 只在80%和一块10%内存占比的区域中分配内存, 然后要GC的时候, 就将GC存活的对象一次性复制到另外一块10%内存占比的区域中
无论是什么情况, 你都需要考虑一件事情, 那就是你无法保证, 每次存活的对象都占总对象的0~20%, 因此如果存活的对象, 大于小内存占比内存区域的可用空间的话, 就需要进行内存补偿,让其有足够的内存来分配, 例如老年代. 也就是说如果由于存货的对象过多, 存不下, 就可以将这些存活的对象一部分让其进入老年代进行存储.
标记整理法
标记复制算法在对象存活的数量过多的时候, 会存在复制效率过低的情况, 同时你会白白浪费一半左右的空间, 如果你不想浪费这一半的空间, 使用2 8 分的情况, 就需要为小内存进行内存补偿.
而标记整理法综合了标记清除算法和复制算法的优点:
首先, 对内存中需要回收的对象进行标记, 然后将存活对象移动到内存的一边, 然后直接清除掉存活的内存对象所占区域的区域
缺点很明显, 需要移动对象, 如果移动对象数量过多, 那么就将会存为一种负担, 移动的存活对象还需要及时更新引用, 并且在移动和更新完成之前, 你不能使用它. 但是不考虑移动, 直接清理就会产生空间碎片化的情况. 但是如果完全不整理内存的碎片, 那么就需要引入类似于win10的内存分配器来解决碎片问题,
还有一种方式就是我没必要一上来就使用标记整理, 我可以在内存足够的时候, 先使用性能高, 代价小的标记清除算法, 然后后续再因为内存不够而分配失败 , 那么就进行整理, 将内存整理到一起,这样就完美的避开了他们的缺点.