搞懂 GC 全過程,就用我這 12 張圖

源 / 二馬讀書        文 / 馬哥


作者簡介:曾任職於阿里巴巴,每日優鮮等互聯網公司,任技術總監,15 年電商互聯網經歷。

最近有些讀者反應:看了很多網上關於 JVM 的文章,但是大部分文章不夠通俗易懂,看不太明白。希望筆者能寫幾篇關於 JVM 的文章,剛好我也有這方面的打算。

GC - 垃圾回收,是 Java 程序員長聊的話題,理解 JVM 垃圾回收的原理和過程,不但有助於寫出高質量高性能的代碼,也可以幫你在面試官面前侃侃而談!

讀完本文,對垃圾回收過程、以及回收算法在垃圾回收中的應用,將會有一個全新的認識和理解。

堆內存結構

我們以 Java 官方的 HotSpot JVM 爲例,在描述 GC 過程前,先了解一下堆內存的結構。

JVM 將堆內存分爲了三部分:新生代(Young Generation),老年代(Old Generation),永久代(Permanent Generation)。其中新生代又分爲三部分:伊甸園區(Eden),和兩個倖存區 S0 和 S1。

注:JDK1.8 之後,Java 官方的 HotSpot JVM 去掉了永久代,取而代之的是元數據區 Metaspace。Metaspace 使用的是本地內存,而不是堆內存,也就是說在默認情況下 Metaspace 的大小隻與本地內存的大小有關。因此 JDK1.8 之後,就見不到 java.lang.OutOfMemoryError: PermGen space 這種由於永久代空間不足導致的內存溢出的問題了。

垃圾回收全過程

新創建的對象會先被分配到到 Eden 區。JVM 剛啓動時,Eden 區對象數量較少,兩個 Survivor 區 S0、S1 幾乎是空的。

隨着時間的推移,Eden 區的對象越來越多。當 Eden 區放不下時(佔用空間達到容量閾值),新生代就會發生垃圾回收,我們稱之爲 Minor GC 或者 Young GC。

發生 GC 時,第一步會通過可達性分析算法找到可達對象。如上圖,藍色爲可達對象,其他紫色爲不可達對象。第二步,被標示的可達對象會被轉移到 S0(此時 S0 是 From Survivor),此時存活對象年齡加 1,三個對象年齡都變爲 1。第三步,清除 Eden 區所有對象。

GC 後各區域對象佔用情況,如上圖所示。

程序繼續運行,Eden 區再次達到容量閾值時,會再次發生 GC。這時 S0(From Survivor)已經有了對象。還是同樣的步驟,通過可達性分析算法找到可達對象,然後再將 Eden 和 S0 中的可達對象轉移到 S1(To Survivor),各存活對象年齡加 1。最後將 Eden 和 S0 中的所有對象清除。

GC 後 S0 區域被清空。如上圖所示。S0 和 S1 發生了互換,S1 變成了 From Survivor,S0 變成了 To Survivor。

注意,To Survivor 區永遠都爲空。這實際上是垃圾回收算法 - 複製算法在年輕代的實際應用。把年輕代分爲 Eden,S0,S1 三個區域,每次垃圾回收時把可達對象複製到 S0 或 S1,然後再清除掉 Eden 和(S1 或 S0)中的所有對象。由於每次 GC 時,新生代的可達對象非常少(絕大部分對象要被回收掉),一般不會超過新生代總體空間的 10%,所以搜尋可達對象以及複製對象的成本都會非常低。而且這種複製的方式還能避免產生堆內存碎片,提高內存利用率。很多年輕代垃圾收集器都採用複製算法,如 ParNew。

在程序運行過程中,新生代 GC 會反覆發生,長壽對象會在 S0 和 S1 之間反覆交換,年齡也會越來越大,當對象達到年齡上限時,會被晉升到老年代。這個年齡上限默認是 15,可以通過參數 - XX:MaxTenuringThreshold 設置。如下圖,有些年輕代對象年齡達到了上限 15,被轉移到了老年代。

其他晉升方式。新生代對象晉升到老年代,除了根據年齡正常晉升外。爲了提高 JVM 的性能,JVM 設計者還考慮了其他晉升方式。

大對象直接晉升。大對象會跨過年輕代直接分配到老年代。可以通過 - XX:PretenureSizeThreshold 參數設置對象大小。如果參數被設置成 5MB,超過 5MB 的大對象會直接分配到老年代。這樣做的目的,是爲了避免大對象在 Eden 區及兩個 Survivor 區之間大量的內存複製,大對象的內存複製耗時比普通對象要高很多。

注意:PretenureSizeThreshold 參數只對 Serial 和 ParNew 兩種回收器有效。

動態對象年齡判定。如果在 Survivor 空間中相同年齡對象大小的總和大於 Survivor 空間的一半,年齡大於或等於該年齡的對象會直接進入老年代,而不用等到 MaxTenuringThreshold 中設置的年齡上限。上圖,年齡爲 1 的對象超過了 Survivor 空間的一半,所以這幾個對象會直接進入老年代。

實際上,上面對動態對象年齡判定的描述並不精確。上圖的場景也會導致相關對象晉升到老年代。年齡爲 1 的對象加上年齡爲 2 的對象超過了半數,這時包括年齡爲 2 的對象以及年齡更大的對象都會被晉升到老年代。所以上圖中年齡爲 2 和 3 的對象都會被晉升到老年代。

老年代垃圾回收。隨着年輕代對象的不斷晉升,老年代的對象變得越來越多,達到容量閾值後老年代也會發生垃圾回收,我們稱之爲 Major GC 或者 Full GC,Full GC 並不是全局 GC,它只發生在老年代。

雖然年輕代和老年代都會發生 GC,但是每次 GC 的時間和成本卻大不相同。由於老年代空間大小一般是年輕代的幾倍,再加上老年代對象存活率很高,所以整個標記過程比較慢,GC 成本也非常高。我們經常說的 JVM 調優,主要是爲了儘量減少老年代 Full GC 的時間和頻次。

老年代垃圾回收器,很少使用複製算法,主要爲了避免大量對象的內存複製帶來的時間和空間上的開銷,一般採用標記清除、標記整理算法,就地標記回收。例如,老年代垃圾收集器 CMS 就採用了標記清除算法。對於標記清除算法帶來的內存碎片問題,CMS 提供了兩個參數做碎片整理,-XX:+UseCMSCompactAtFullCollection 和 - XX:CMSFullGCsBeforeCompaction。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/2PXJI3rljWvgbd_XuxPwiw