一文看懂 GDB 調試上層實現

一、前言

這篇文章來聊聊大名鼎鼎的 GDB,它的豪門背景咱就不提了,和它的兄弟 GCC 一樣是含着金鑰匙出生的,在 GNU 的家族中的地位不可撼動。相信每位嵌入式開發工程師都使用過 gdb 來調試程序,如果你說沒有用過,那隻能說明你的開發經歷還不夠坎坷,還需要繼續被 BUG 吊打。

我們都知道,在使用 gcc 編譯時,可以使用 -g 選項在可執行文件中嵌入更多的調試信息,那麼具體嵌入了哪些調試信息?這些調試信息是如何與二進制的指令之間進行相互交互?在調試的時候,調試信息中是如何獲取函數調用棧中的上下文信息?

針對上面這些疑惑,道哥用兩篇文章把這些底層最深處的問題徹底描述清楚,讓你一次看過癮。

第一篇文章,就是當前這一篇,主要內容是介紹 GDB 的底層調試原理,我們來看一下 GDB 是通過什麼機制來控制被調試程序的執行順序。

第二篇文章,我們選擇一個體積小巧、五臟俱全的 LUA 語言來進行剖析,從源代碼分析到函數調用棧,從指令集到調試庫的修改,一網打盡。

內容比較多,看完本文需要的時間可能長一些,爲了您的健康,不建議在處於蹲姿的時候閱讀這篇文章。

二、GDB 調試模型

GDB 調試包括 2 個程序:gdb 程序和被調試程序。根據這 2 個程序是否運行在同一臺電腦中,可以把 GDB 的調試模型分爲 2 種:

  1. 本地調試

  2. 遠程調試

本地調試:調試程序和被調試程序運行在同一臺電腦中。

遠程調試:調試程序運行在一臺電腦中,被調試程序運行在另一臺電腦中。

關於可視化調試程序並不是重點,它只是一個用來封裝 GDB 的外殼而已。我們既可以用黑乎乎的終端窗口來手動輸入調試命令;也可以選擇集成開發環境 (IDE),這個 IDE 中已經嵌入了器調試,這樣就可以使用各種 button 來代替手動輸入調試命令了。

與本地調試相比,遠程調試中多了一個 GdbServer 程序,它和目標程序都是運行在目標機中,可能是一臺 x86 電腦或者是一個 ARM 板子。圖中的紅線表示 GDB 與 GdbServer 之間通過網絡或者串口進行通訊。既然是通訊,那麼肯定需要一套通訊協議:RSP 協議,全稱是:GDB Remote Serial Protocol(GDB 遠程通信協議)。

關於通訊協議的具體格式和內容,我們不需要關心,只需要知道:它們都是字符串,有固定的開始字符 ('$') 和結束字符('#'),最後還有兩個十六進制的 ASCII 字符作爲校驗和,瞭解這麼多就足夠了。至於更多的細節,如果實在閒的 XX 可以瞄幾眼,其實這些協議,就像社會中各種奇葩的規定一樣,都是一幫磚家在廁所裏想出來的。

在第二篇講解 LUA 的文章中,我們會實現一個類似的遠程調試原型。其中的通信協議也是字符串,直接把 HTTP 協議進行簡化之後就拿過來使用了,十分清晰、方便。

三、GDB 調試指令

爲了完整性,這裏把部分 GDB 調試指令貼一下,有感性認識即可。

另外,這裏沒有列舉所有的指令,列出的指令都是常用的,比較容易理解。在講解 LUA 的時候,我們會選擇其中的某些指令進行詳細的對比,包括底層的實現機制。

每一個調試指令都有很多的命令選項,例如斷點相關的就包括:設置斷點、刪除斷點、條件斷點、臨時停用啓用等等。這篇文章的重點是理解 gdb 底層的調試機制,所以應用層的這些指令的使用方法就不再列出了,網絡上的資源很多。

四、GDB 與被調試程序之間的關係

爲了方便描述,先寫一個最最簡單的 C 程序:

編譯命令:

$ gcc -g test.c -o test

我們對可執行程序 test 進行調試,輸入命令:

$ gdb ./test

輸出如下:

在最後一行可以看到光標在閃爍,這是 gdb 程序在等着我們給它下達調試命令呢。

當上面這個黑乎乎的終端窗口在執行 gdb ./test 的時候,在操作系統裏發生了很多複雜的事情:

系統首先會啓動 gdb 進程,這個進程會調用系統函數 fork() 來創建一個子進程,這個子進程做兩件事情:

  1. 調用系統函數 ptrace(PTRACE_TRACEME,[其他參數]);

  2. 通過 execc 來加載、執行可執行程序 test,那麼 test 程序就在這個子進程中開始執行了。

補充一點:文中有時稱之程序,有時稱之進程。“程序” 描述的是一個靜態的概念,就是一堆數據躺着硬盤上,而 “進程” 描述的是動態的過程,是這個程序被讀取、加載到內存上之後,在操作系統中有一個任務控制塊 (一個數據結構),專門用來管理這個進程的。

鋪墊了半天,終於輪到主角登場了,那就是系統調用函數 ptrace(其中的參數後面會解釋),正是在它的幫助下,gdb 才擁有了強大的調試能力。函數原型是:

#include <sys/ptrace.h>
long ptrace(enum __ptrace_request request, pid_t pid, void *addr, void *data);

我們先來看一下 man 中對這個函數的簡介:

tracer 就是調試程序,可以理解爲 gdb 程序;tracee 就是被調試程序,對應於圖中的目標程序 test。一般喜歡用 - er 和 - ee 來表示主動和被動的關係,例如:employer 就是僱主 (老闆),employee 就是苦逼的被僱傭者 (打工人)。

ptrace 系統函數是 Linux 內核提供的一個用於進程跟蹤的系統調用,通過它,一個進程 (gdb) 可以讀寫另外一個進程 (test) 的指令空間、數據空間、堆棧和寄存器的值。而且 gdb 進程接管了 test 進程的所有信號,也就是說系統向 test 進程發送的所有信號,都被 gdb 進程接收到,這樣一來,test 進程的執行就被 gdb 控制了,從而達到調試的目的。

也就是說,如果沒有 gdb 調試,操作系統與目標進程之間是直接交互的;如果使用 gdb 來調試程序,那麼操作系統發送給目標進程的信號就會被 gdb 截獲,gdb 根據信號的屬性來決定:在繼續運行目標程序時是否把當前截獲的信號轉交給目標程序,如此一來,目標程序就在 gdb 發來的信號指揮下進行相應的動作。

五、GDB 如何調試已經執行的服務進程

是否有小夥伴會提出這樣一個疑問:上面被調試的程序 test 是從頭開始執行的,是否可以用 gdb 來調試一個已經處於執行中的服務進程呢?答曰:可以。這就涉及到 ptrace 系統函數的第一個參數了,這個參數是一個枚舉類型的值,其中重要的是 2 個:PTRACE_TRACEME 和 PTRACE_ATTACH<。

在上面的講解中,子進程在調用 ptrace 系統函數時使用的參數是 PTRACE_TRACEME,注意橙色文字:是子進程調用 ptrace,相當於子進程對操作系統說:gdb 進程是我的爸爸,以後你有任何想發給我的信號,請直接發給 gdb 進程吧!

如果想對一個已經執行的進程 B 進行調試,那麼就要在 gdb 這個父進程中調用 ptrace(PTRACE_ATTACH,[其他參數]),此時,gdb 進程會 attach(綁定) 到已經執行的進程 B,gdb 把進程 B 收養成爲自己的子進程,而子進程 B 的行爲等同於它進行了一次 PTRACE_TRACEME 操作。此時 gdb 進程會發送 SIGSTO 信號給子進程 B,子進程 B 接收到 SIGSTOP 信號後,就會暫停執行進入 TASK_STOPED 狀態,表示自己準備好被調試了。

所以,不論是調試一個新程序,還是調試一個已經處於執行中狀態的服務程序,通過 ptrace 系統調用,最終的結果都是:gdb 程序是父進程,被調試程序是子進程,子進程的所有信號都被父進程 gdb 來接管,並且父進程 gdb 可查看、修改子進程的內部信息,包括:堆棧、寄存器等。

關於綁定,有幾個限制需要了解一下:不予許自我綁定,不允許多次綁定到同一個進程,不允許綁定 1 號進程。

六、偷窺 GDB 如何實現斷點指令

大道理已經講完了,這裏我們通過設置斷點 (break) 這個調試指令,來偷窺一下 gdb 內部的調試機制。還是以上面的代碼爲例子,這裏再重新貼一下代碼:

#include <stdio.h>

int main(int argc, char *argv[])
{
    int a = 1;
    int b = 2;
    int c = a + b;
    printf("c = %d \n", c);
    return 0;
}

來看一下編譯出來的反彙編代碼是什麼樣的,編譯指令:

gcc -S test.c; cat test.S)

這裏只貼了一部分反彙編代碼,只要能說明底層的原理就達到我們的目的了。

上面說到,在執行 gdb ./test 之後,gdb 就會 fork 出一個子進程,這個子進程首先調用 ptrace 然後執 test 程序,這樣就準備好調試環境了。

我們把源碼和彙編代碼放在一起,方便理解:

在調試窗口輸入設置斷點指令 “break 5”,此時 gdb 做 2 件事情:

  1. 對第 5 行源碼所對應的第 10 行彙編代碼存儲到斷點鏈表中。

  2. 在彙編代碼的第 10 行,插入中斷指令 INT3,也就是說:彙編代碼中的第 10 行被替換爲 INT3。

然後,在調試窗口繼續輸入執行指令 “run”(一直執行,直到遇到斷點就暫停),彙編代碼中 PC 指針 (一個內部指針,指向即將執行的那行代碼) 執行第 10 行時,發現是 INT3 指令,於是操作系統就發送一個 SIGTRAP 信號給 test 進程。

此刻,第 10 行彙編代碼被執行過了,PC 指針就指向第 11 行了。

上面已經說過,操作系統發給 test 的任何信號,都被 gdb 接管了,也就是說 gdb 會首先接收到這 SIGTRAP 個信號,gdb 發現當前彙編代碼執行的是第 10 行,於是到斷點鏈表中查找,發現鏈表中存儲了第 10 行的代碼,說明第 10 行被設置了斷點。於是 gdb 又做了 2 個操作:

  1. 把彙編代碼中的第 10 行 "INT3" 替換爲斷點鏈表中原來的代碼。

  2. 把 PC 指針回退一步,也即是設置爲指向第 10 行。

然後,gdb 繼續等待用戶的調試指令。

此刻,就相當於下一條執行的指令是彙編代碼中的第 10 行,也就是源碼中的第 5 行。從我們調試者角度看,就是被調試程序在第 5 行斷點處暫停了下來,此時我們可以繼續輸入其他調試指令來 debug,比如:查看變量值、查看堆棧信息、修改局部變量的值等等。

七、偷窺 GDB 如何實現單步指令 next

還是以剛纔的源代碼和彙編代碼爲例,假設此時程序停止在源碼的第 6 行,即彙編代碼的第 11 行:

在調試窗口輸入單步執行指令 next,我們的目的是執行一行代碼,也就是把源碼中第 6 行代碼執行完,然後停止在第 7 行。gdb 在接收到 next 執行時,會計算出第 7 行源碼,應該對應到彙編代碼的第 14 行,於是 gdb 就控制彙編代碼中的 PC 指針一直執行,直到第 13 行執行結束,也就是 PC 指向第 14 行時,就停止下來,然後繼續等待用戶輸入調試指令。

八、總結

通過 break 和 next 這 2 個調試指令,我們已經明白了 gdb 中是如何處理調試指令。當然,gdb 中的調試指令還有很多,包括更復雜的獲取堆棧信息、修改變量的值等等,有興趣的小夥伴可以繼續深入跟蹤。

後面我在寫 LUA 語言中的調試庫時,會更深入、詳細的討論這個問題,畢竟 LUA 語言更小巧、簡單。我也會把 LUA 代碼中如何設置 PC 指針的代碼部分給小夥伴演示一下,這樣我們對於一門編程語言的內部實現就會有更好的理解和掌握,也可能會錄製一個視頻,這樣就能更好的講解 LUA 語言中的內部細節。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/UWAx81cqzkmCn6rfddsXFQ