窺探 Go 語言結構體函數調用的底層實現

《Go 語言嵌入和多態機制對比》一文中我們瞭解了 Go 語言的類型系統。下面,我們就來了解一下 Go 語言是如何實現類型系統特性,我們將會深入到 Go 語言運行時和最終機器碼層面對 Go 語言的結構體、函數調用進行了解

上文已經提及,Go 語言結構體並非 Java 和 C++ 語言中 class 的概念,下面我們來了解一下結構體變量聲明和相關函數調用在機器碼或彙編層面的體現。我們以下面代碼爲案例進行分析。

func (u User) addAgeVal(a int32) int32 {

    n := u.Age + a

    return n
}





func (u *User) addAgePtr(a int32) int32 {

    n := u.Age + a
    return n


}




func main() {

    u := User{ID: 1, Name: "Tom", Age: 23}
    s1 := u.addAgeVal(1)
    s2 := u.addAgePtr(2)


    println(s1 == s2)

}

將上述代碼使用如下命令編譯成機器碼,其中 GOOS 指定目標操作系統,GOARCH 指定 CPU 架構,-S 表示打印機器碼,-N 是禁止編譯器優化,-l 是禁止內聯,本機 Go 版本爲 go1.16.4。

GOOS=linux GOARCH=amd64 go tool compile -S -N -l main.go

變量聲明和初始化

我們首先來看 main 函數中 u 變量的聲明和初始化過程。彙編代碼較大,下面只截取部分內容展示,具體如下所示。

由上可見,結構體真的就是基礎類型變量的集合,並沒有額外其他信息的加載,對於類型爲 User 的 u 變量的聲明並初始化語句,首先將對應的棧內空間清零,然後依次處理三個初始化參數值,並加載到對應的棧空間位置,完成初始化過程。

其中 ID 和 Age 由於是基礎類型,所以較爲簡單,而 Name 字段涉及到 string 類型,稍有區別,String 類型的運行時表達,具體如下所示。

type** StringHeader struct {

    Data uintptr

    Lenint

}

由此可見上述彙編中首先將 Tom 字面量地址加載到棧內空間,Tom 字面量則存儲在內存數據段中,給 Data 變量賦值,然後將字面量的長度 3 加載到對應位置,給 Len 變量賦值,具體如下圖所示。

SP 代表棧頂指針,而 "".u +64(SP) 代表相對於棧頂偏移 64 字節的位置,u 則是引用地址的別名,也正是變量 u 的名稱。如圖所示,在棧空間中,並不存在結構體 User,而是由基礎類型數值和指針等組成的一段空間,這段空間就代表着結構體 User。

從棧頂向棧底方向依次爲佔 8 字節的代表 User.ID 的常量值 1,佔據 16 字節的代表 User.Name 的字符串 Tom 值地址和佔據 8 字節的代表 User.Age 的常量 23,其中字符串 Tom 又由 8 字節的 Data 指針和 8 字節的 Len 組成。

上述代碼中變量 u 未發生逃逸,所以分配在棧中,如果將變量聲明成指針類型並且符合逃逸規則,該結構體就會分配在堆上

func makeUser() *User {
    u := &User{ID: 1, Name: "Tom", Age: 23}
   return u
}

上述指針變量聲明和初始化過程的彙編如下所示。

可以看出彙編代碼會首先將 Cat 結構體的類型指針加載到棧頂,作爲參數;然後調用 newObject 函數來在堆上按照 Cat 結構體類型分配對應的空間,並返回空間的起始地址;最後使用該起始地址設置結構體的變量。

分配在堆上的結構體示意圖在上一個圖的右側顯示。我們可以看到,當結構體分配在棧上時,其內部成員變量會依次排列,佔據各自固定的空間;而結構體分配在堆上時,其在棧上只會存在一個指向堆地址的指針,該指針指向結構體在堆上的起始位置。

值接收器函數

下面我們來看一下結構體作爲函數接收器如何進行函數調用,包括如何如何傳遞參數和返回值,如何進行值接收器和指針接收器轉換等。上述例子中涉及函數調用的片段如下所示:

Go 的調用規約要求函數參數和返回值都通過棧來傳遞,這部分空間由調用方在其棧幀 (stack frame) 上提供。

下面,我們來看一下被調用函數 addAgeVal 函數的相關機器碼錶達。

addAgeVal 函數大致分爲四個步驟:

綜上,main 函數調用 User 的 addAgeVal 函數的過程如下圖所示。

如上圖所示,我們看到在 main 函數執行 call 指令前,爲調用函數 addAgeVal 的參數和返回值準備好了空間,然後將函數接收器 u 和對應的參數 a 按照順序拷貝到該空間上,然後預留 +40(SP) 的位置給函數調用的返回值。

也正是因爲值接收器和函數參數發生拷貝,所以函數內對其修改不會影響原值。

調用 call 指令時,會將指令返回地址壓入棧首,然後再執行 addAgeVal 函數的指令,將棧頂增長 16 字節,從而導致函數接收器、參數和返回值的相對於 SP 的地址發生變化,增加了 16 字節,所以大家會發現 addAgeVal 函數中指令操作的相對地址發生了變化。

指針接收器函數

下面,我們來看調用指針接收器函數 addAgePtr 相關的具體指令,體會它與值接收器函數的區別。

可以看到調用 addAgePtr 時不會對接收器 u 進行拷貝,而只是將 u 的起始棧地址加載到棧頂,這其實就相當於傳遞了指向 u 的指針。然後是設置參數 a 的值,最後使用 CALL 指令調用 addAgePtr 函數。

而 addAgePtr 函數的指令和 addAgeVal 類似,唯一不同的是要使用指針來獲取接收器 u 的 Age 變量的值,具體如下所示。

從對應的棧空間取到接收器 u 的指針,也就是其起始地址,從起始地址偏移 24 字節就是接收器 u 的 Age 變量位置。整個流程如下圖所示。

如上圖所示,可以看到指針接收器的函數調用時,只需要將其地址作爲默認參數進行傳遞,所以在函數內的對接收器的修改,都是直接修改在原值上。

此外,調用 addAgePtr 的場景是在值變量上調用指針接收器函數,我們看到編譯器將值的地址取出作爲接收器參數進行傳遞,而如果是指針變量調用值接收器函數的話,則會先對指針進行取地址,然後再將指針指向的值數據進行拷貝。

綜上,我們瞭解了 Go 語言中結構器和結構體函數在機器層級方面的底層實現,後續文章我們再繼續瞭解 Go 語言相關特性的底層實現。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/gmkD7KhMlMtzpOGzr8If_g