圖文詳解 Java 對象內存佈局

轉自:碼農參上 / Dr Hydra

作爲一名 Java 程序員,我們在日常工作中使用這款面向對象的編程語言時,做的最頻繁的操作大概就是去創建一個個的對象了。對象的創建方式雖然有很多,可以通過new、反射、clone、反序列化等不同方式來創建,但最終使用時對象都要被放到內存中,那麼你知道在內存中的 java 對象是由哪些部分組成、又是怎麼存儲的嗎?

本文將基於代碼進行實例測試,詳細探討對象在內存中的組成結構。全文目錄結構如下:

文中代碼基於 JDK 1.8.0_261,64-Bit HotSpot 運行

1、對象內存結構概述

在介紹對象在內存中的組成結構前,我們先簡要回顧一個對象的創建過程:

1、jvm 將對象所在的class文件加載到方法區中

2、jvm 讀取main方法入口,將main方法入棧,執行創建對象代碼

3、在main方法的棧內存中分配對象的引用,在堆中分配內存放入創建的對象,並將棧中的引用指向堆中的對象

所以當對象在實例化完成之後,是被存放在堆內存中的,這裏的對象由 3 部分組成,如下圖所示:

對各個組成部分的功能簡要進行說明:

2、JOL 工具簡介

在具體開始研究對象的內存結構之前,先介紹一下我們要用到的工具,openjdk官網提供了查看對象內存佈局的工具jol (java object layout),可在maven中引入座標:

<dependency>
    <groupId>org.openjdk.jol</groupId>
    <artifactId>jol-core</artifactId>
    <version>0.14</version>
</dependency>

在代碼中使用jol提供的方法查看 jvm 信息:

System.out.println(VM.current().details());

通過打印出來的信息,可以看到我們使用的是 64 位 jvm,並開啓了指針壓縮,對象默認使用 8 字節對齊方式。通過jol查看對象內存佈局的方法,將在後面的例子中具體展示,下面開始對象內存佈局的正式學習。

3、對象頭

首先看一下對象頭(Object header)的組成部分,根據普通對象和數組對象的不同,結構將會有所不同。只有當對象是數組對象纔會有數組長度部分,普通對象沒有該部分,如下圖所示:

在對象頭中mark word 佔 8 字節,默認開啓指針壓縮的情況下klass pointer 佔 4 字節,數組對象的數組長度佔 4 字節。在瞭解了對象頭的基礎結構後,現在以一個不包含任何屬性的空對象爲例,查看一下它的內存佈局,創建User類:

public class User {
}

使用jol查看對象頭的內存佈局:

public static void main(String[] args) {
    User user=new User();
    //查看對象的內存佈局
    System.out.println(ClassLayout.parseInstance(user).toPrintable());
}

執行代碼,查看打印信息:

當前對象共佔用 16 字節,因爲 8 字節標記字加 4 字節的類型指針,不滿足向 8 字節對齊,因此需要填充 4 個字節:

8B (mark word) + 4B (klass pointer) + 0B (instance data) + 4B (padding)

這樣我們就通過直觀的方式,瞭解了一個不包含屬性的最簡單的空對象,在內存中的基本組成是怎樣的。在此基礎上,我們來深入學習對象頭中各個組成部分。

3.1 Mark Word 標記字

在對象頭中,mark word 一共有 64 個 bit,用於存儲對象自身的運行時數據,標記對象處於以下 5 種狀態中的某一種:

3.1.1 基於 mark word 的鎖升級

在 jdk6 之前,通過synchronized關鍵字加鎖時使用無差別的的重量級鎖,重量級鎖會造成線程的串行執行,並且使 cpu 在用戶態和核心態之間頻繁切換。隨着對synchronized的不斷優化,提出了鎖升級的概念,並引入了偏向鎖、輕量級鎖、重量級鎖。在mark word中,鎖(lock)標誌位佔用 2 個 bit,結合 1 個 bit 偏向鎖(biased_lock)標誌位,這樣通過倒數的 3 位,就能用來標識當前對象持有的鎖的狀態,並判斷出其餘位存儲的是什麼信息。

基於mark word的鎖升級的流程如下:

1、鎖對象剛創建時,沒有任何線程競爭,對象處於無鎖狀態。在上面打印的空對象的內存佈局中,根據大小端,得到最後 8 位是00000001,表示處於無鎖態,並且處於不可偏向狀態。這是因爲在 jdk 中偏向鎖存在延遲 4 秒啓動,也就是說在 jvm 啓動後 4 秒後創建的對象纔會開啓偏向鎖,我們通過 jvm 參數取消這個延遲時間:

-XX:BiasedLockingStartupDelay=0

這時最後 3 位爲101,表示當前對象的鎖沒有被持有,並且處於可被偏向狀態。

2、在沒有線程競爭的條件下,第一個獲取鎖的線程通過CAS將自己的threadId寫入到該對象的mark word中,若後續該線程再次獲取鎖,需要比較當前線程threadId和對象mark word中的threadId是否一致,如果一致那麼可以直接獲取,並且鎖對象始終保持對該線程的偏向,也就是說偏向鎖不會主動釋放。

使用代碼進行測試同一個線程重複獲取鎖的過程:

public static void main(String[] args) {
    User user=new User();
    synchronized (user){
        System.out.println(ClassLayout.parseInstance(user).toPrintable());
    }
    System.out.println(ClassLayout.parseInstance(user).toPrintable());
    synchronized (user){
        System.out.println(ClassLayout.parseInstance(user).toPrintable());
    }
}

執行結果:

可以看到一個線程對一個對象加鎖、解鎖、重新獲取對象的鎖時,mark word都沒有發生變化,偏向鎖中的當前線程指針始終指向同一個線程。

3、當兩個或以上線程交替獲取鎖,但並沒有在對象上併發的獲取鎖時,偏向鎖升級爲輕量級鎖。在此階段,線程採取CAS的自旋方式嘗試獲取鎖,避免阻塞線程造成的 cpu 在用戶態和內核態間轉換的消耗。測試代碼如下:

public static void main(String[] args) throws InterruptedException {
    User user=new User();
    synchronized (user){
        System.out.println("--MAIN--:"+ClassLayout.parseInstance(user).toPrintable());
    }

    Thread thread = new Thread(() -> {
        synchronized (user) {
            System.out.println("--THREAD--:"+ClassLayout.parseInstance(user).toPrintable());
        }
    });
    thread.start();
    thread.join();
    System.out.println("--END--:"+ClassLayout.parseInstance(user).toPrintable());
}

先直接看一下結果:

整個加鎖狀態的變化流程如下:

4、當兩個或以上線程併發的在同一個對象上進行同步時,爲了避免無用自旋消耗 cpu,輕量級鎖會升級成重量級鎖。這時mark word中的指針指向的是monitor對象(也被稱爲管程或監視器鎖)的起始地址。測試代碼如下:

public static void main(String[] args) {
    User user = new User();
    new Thread(() -> {
        synchronized (user) {
            System.out.println("--THREAD1--:" + ClassLayout.parseInstance(user).toPrintable());
            try {
                TimeUnit.SECONDS.sleep(2);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }).start();
    new Thread(() -> {
        synchronized (user) {
            System.out.println("--THREAD2--:" + ClassLayout.parseInstance(user).toPrintable());
            try {
                TimeUnit.SECONDS.sleep(2);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }).start();
}

查看結果:

可以看到,在兩個線程同時競爭 user 對象的鎖時,會升級爲10重量級鎖。

3.1.2 其他信息

mark word 中其他重要信息進行說明:

public static void main(String[] args) {
    User user=new User();
    //打印內存佈局
    System.out.println(ClassLayout.parseInstance(user).toPrintable());
    //計算hashCode
    System.out.println(user.hashCode());
    //再次打印內存佈局
    System.out.println(ClassLayout.parseInstance(user).toPrintable());
}

可以看到,在沒有調用hashCode()方法前,31 位的哈希值不存在,全部填充爲 0。在調用方法後,根據大小端,被填充的數據爲:

1011001001101100011010010101101

將 2 進制轉換爲 10 進制,對應哈希值1496724653。需要注意,只有在調用沒有被重寫的Object.hashCode()方法或System.identityHashCode(Object)方法纔會寫入mark word,執行用戶自定義的hashCode()方法不會被寫入。

大家可能會注意到,當對象被加鎖後,mark word中就沒有足夠空間來保存hashCode了,這時hashcode會被移動到重量級鎖的Object Monitor中。

-XX:MaxTenuringThreshold

當設置的閾值超過 15 時,啓動時會報錯:

3.2 Klass Pointer 類型指針

Klass Pointer是一個指向方法區中Class信息的指針,虛擬機通過這個指針確定該對象屬於哪個類的實例。在 64 位的 JVM 中,支持指針壓縮功能,根據是否開啓指針壓縮,Klass Pointer佔用的大小將會不同:

jdk6之後的版本中,指針壓縮是被默認開啓的,可通過啓動參數開啓或關閉該功能:

#開啓指針壓縮:
-XX:+UseCompressedOops
#關閉指針壓縮:
-XX:-UseCompressedOops

還是以剛纔的User類爲例,關閉指針壓縮後再次查看對象的內存佈局:

對象大小雖然還是 16 字節,但是組成發生了改變,8 字節標記字加 8 字節類型指針,已經能滿足對齊條件,因此不需要填充。

8B (mark word) + 8B (klass pointer) + 0B (instance data) + 0B (padding)
3.2.1 指針壓縮原理

在瞭解了指針壓縮的作用後,我們來看一下指針壓縮是如何實現的。首先在不開啓指針壓縮的情況下,一個對象的內存地址使用 64 位表示,這時能描述的內存地址範圍是:

0 ~ 2^64-1

在開啓指針壓縮後,使用 4 個字節也就是 32 位,可以表示2^32 個內存地址,如果這個地址是真實地址的話,由於 CPU 尋址的最小單位是Byte,那麼就是 4GB 內存。這對於我們來說是遠遠不夠的,但是之前我們說過,java 中對象默認使用了 8 字節對齊,也就是說 1 個對象佔用的空間必須是 8 字節的整數倍,這樣就創造了一個條件,使 jvm 在定位一個對象時不需要使用真正的內存地址,而是定位到由 java 進行了 8 字節映射後的地址(可以說是一個映射地址的編號)。

映射過程也非常簡單,由於使用了 8 字節對齊後每個對象的地址偏移量後 3 位必定爲 0,所以在存儲的時候可以將後 3 位 0 抹除(轉化爲bit是抹除了最後 24 位),在此基礎上再去掉最高位,就完成了指針從 8 字節到 4 字節的壓縮。而在實際使用時,在壓縮後的指針後加 3 位 0,就能夠實現向真實地址的映射。

完成壓縮後,現在指針的 32 位中的每一個bit,都可以代表 8 個字節,這樣就相當於使原有的內存地址得到了 8 倍的擴容。所以在 8 字節對齊的情況下,32 位最大能表示2^32*8=32GB內存,內存地址範圍是:

0 ~ (2^32-1)*8

由於能夠表示的最大內存是 32GB,所以如果配置的最大的堆內存超過這個數值時,那麼指針壓縮將會失效。配置 jvm 啓動參數:

-Xmx32g

查看對象內存佈局:

此時,指針壓縮失效,指針長度恢復到 8 字節。那麼如果業務場景內存超過 32GB 怎麼辦呢,可以通過修改默認對齊長度進行再次擴展,我們將對齊長度修改爲 16 字節:

-XX:ObjectAlignmentInBytes=16 -Xmx32g

可以看到指針壓縮後佔 4 字節,同時對象向 16 字節進行了填充對齊,按照上面的計算,這時配置最大堆內存爲 64GB 時指針壓縮纔會失效。

對指針壓縮做一下簡單總結:

3.3 數組長度

如果當對象是一個數組對象時,那麼在對象頭中有一個保存數組長度的空間,佔用 4 字節(32bit)空間。通過下面代碼進行測試:

public static void main(String[] args) {
    User[] user=new User[2];
    //查看對象的內存佈局
    System.out.println(ClassLayout.parseInstance(user).toPrintable());
}

運行代碼,結果如下:

內存結構從上到下分別爲:

需要注意的是,在未開啓指針壓縮的情況下,在數組長度後會有一段對齊填充字節:

通過計算:

8B (mark word) + 8B (klass pointer) + 4B (array length) + 16B (instance data)=36B

需要向 8 字節進行對齊,這裏選擇將對齊的 4 字節添加在了數組長度和實例數據之間。

4、實例數據

實例數據(Instance Data)保存的是對象真正存儲的有效信息,保存了代碼中定義的各種數據類型的字段內容,並且如果有繼承關係存在,子類還會包含從父類繼承過來的字段。

aUPUuH

開啓指針壓縮情況下佔 8 字節,開啓指針壓縮後佔 4 字節。

4.1 字段重排序

給 User 類添加基本數據類型的屬性字段:

public class User {
    int id,age,weight;
    byte sex;
    long phone;
    char local;
}

查看內存佈局:

可以看到,在內存中,屬性的排列順序與在類中定義的順序不同,這是因爲 jvm 會採用字段重排序技術,對原始類型進行重新排序,以達到內存對齊的目的。具體規則遵循如下:

上面的前兩條規則相對容易理解,這裏通過舉例對第 3 條進行解釋:

因爲long類型佔 8 字節,所以它的偏移量必定是 8n,再加上前面對象頭佔 12 字節,所以long類型變量的最小偏移量是 16。通過打印對象內存佈局可以發現,當對象頭不是 8 字節的整數倍時(只存在8n+4字節情況),會按從大到小的順序,使用 4、2、1 字節長度的屬性進行補位。爲了和對齊填充進行區分,可以稱其爲前置補位,如果在補位後仍然不滿足 8 字節整數倍,會進行對齊填充。在存在前置補位的情況下,字段的排序會打破上面的第一條規則。

因此在上面的內存佈局中,先使用 4 字節的int進行前置補位,再按第一條規則從大到小順序進行排列。如果我們刪除 3 個int類型的字段,再查看內存佈局:

charbyte類型的變量被提到前面進行前置補位,並在long類型前進行了 1 字節的對齊填充。

4.2 擁有父類情況

public class A {
    int i1,i2;
    long l1,l2;
    char c1,c2;
}
public class B extends A{
    boolean b1;
    double d1,d2;
}

查看內存結構:

public class A {
    int i1,i2;
    long l1;
}
public class B extends A {
    int i1,i2;
    long l1;
}

查看內存結構:

可以看到,子類中較短長度的變量被提前到父類後進行了後置補位。

public class A {
    long l;
}
public class B extends A{
    long l2;
    int i1;
}

查看內存結構:

當 B 類沒有繼承 A 類時,正好滿足 8 字節對齊,不需要進行對齊填充。當 B 類繼承 A 類後,會繼承 A 類的前置補位填充,因此在 B 類的末尾也需要對齊填充。

4.3 引用數據類型

在上面的例子中,僅探討了基本數據類型的排序情況,那麼如果存在引用數據類型時,排序情況是怎樣的呢?在User類中添加引用類型:

public class User {
     int id;
     String firstName;
     String lastName;
     int age;
}

查看內存佈局:

可以看到默認情況下,基本數據類型的變量排在引用數據類型前。這個順序可以在jvm啓動參數中進行修改:

-XX:FieldsAllocationStyle=0

重新運行,可以看到引用數據類型的排列順序被放在了前面:

FieldsAllocationStyle的不同取值簡要說明:

4.4 靜態變量

在上面的基礎上,在類中加入靜態變量:

public class User {
     int id;
     static byte local;
}

查看內存佈局:

通過結果可以看到,靜態變量並不在對象的內存佈局中,它的大小是不計算在對象中的,因爲靜態變量屬於類而不是屬於某一個對象的。

5、對齊填充字節

Hotspot的自動內存管理系統中,要求對象的起始地址必須是 8 字節的整數倍,也就是說對象的大小必須滿足 8 字節的整數倍。因此如果實例數據沒有對齊,那麼需要進行對齊補全空缺,補全的bit位僅起佔位符作用,不具有特殊含義。

在前面的例子中,我們已經對對齊填充有了充分的認識,下面再做一些補充:

# 開啓
-XX:+CompactFields
# 關閉
-XX:-CompactFields

測試關閉情況,可以看到較短長度的變量沒有前移填充:

-XX:ObjectAlignmentInBytes

默認情況下對齊寬度爲 8,這個值可以修改爲 2~256 以內 2 的整數冪,一般情況下都以 8 字節對齊或 16 字節對齊。測試修改爲 16 字節對齊:

上面的例子中,在調整爲 16 字節對齊的情況下,最後一行的屬性字段只佔了 6 字節,因此會添加 10 字節進行對齊填充。當然普通情況下不建議修改對齊長度參數,如果對齊寬度過長,可能會導致內存空間的浪費。

6、總結

本文通過使用jol 對 java 對象的結構進行調試,學習了對象內存佈局的基本知識。通過學習,能夠幫助我們:

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/b9gXZLgccK8mWZc0xVk4Ag