聊聊 Linux 中 CPU 上下文切換

什麼是 CPU 上下文

Linux 是一個多任務的操作系統,多任務操作系統是指多個進程運行在一個 CPU 中互不打擾,看起來像同時運行一樣。多任務的操作系統這樣就可以支持遠大於 CPU 數量的任務 "同時運行"。但是我們都知道這其實是一個錯覺,真正是系統在很短的時間內將 CPU 輪流執行各個任務,給用戶造成多任務 "同時運行" 的感覺。

其中有一個問題,在每次執行任務之前,CPU 必須要知道從哪裏加載任務,以及加載後從哪裏開始運行,操作系統通過CPU中寄存器和程序計數器配合,來保存和恢復相應進度的信息

CPU 寄存器:CPU 寄存器是 CPU 內置的速度極快的內存;程序計數器:程序計數器會存儲 CPU 正在執行的指令位置,或者即將執行的指令位置。

在任務調度的過程中, 而這些信息都保存在 CPU 的寄存器中,其中即將執行的下一條指令的地址被保存在程序計數器上。我們將這些信息稱爲 CPU 的上下文,也叫硬件上下文

當某一進程自願放棄它的 CPU 時間或者系統分配的時間片用完時,就會發生 CPU 上下文切換。

CPU 上下文切換

操作系統 OS 在切換運行任務時,將上一任務的上下文保存起來,然後加載新任務的上下文到CPU寄存器,最後再跳轉到程序計數器所指的新位置上執行新任務的這一動作,被稱爲 CPU 上下文切換

CPU 上下文切換的步驟:

  1. 將前一個 CPU 的上下文(也就是 CPU 寄存器和程序計數器裏邊的內容)保存起來;

  2. 然後加載新任務的上下文到寄存器和程序計數器;

  3. 最後跳轉到程序計數器所指的新位置,運行新任務。

  4. 被保存起來的上下文會存儲到系統內核中,等待任務重新調度執行時再次加載進來。

CPU 的上下文切換分三種:進程上下文切換、線程上下文切換、中斷上下文切換

上一任務的 CPU 上下文保存在哪?

我們知道因爲 CPU 過於昂貴,其性能與其他儲存設備有數量級的差距,爲了充分壓榨其性能,計算機將 CPU 的時間進行分片,讓各個程序在 CPU 上輪轉執行,被剝奪執行權的程序,等後面 CPU 繼續執行它的時候,這時需要一個數據結構來保存相關信息,以便之後恢復繼續執行,這個其實就是進程。

CPU 上下文會被保存在進程的內核空間(kernel space)上。OS 在給每個進程分配虛擬內存空間時,會分配一個內核空間,這部分內存只能由內核代碼訪問。OS 在切換 CPU 上下文前,會先將當前 CPU 的通用寄存器、PC 等進程現場信息保存在進程的內核空間上,待下次切換時,再取出重新裝載到 CPU 上,以恢復任務的運行。

進程上下文切換

內核空間和用戶空間

我們知道爲了限制不同的指令的訪問能力,提升安全,Linux 按照特權等級,把進程的運行空間分爲內核空間用戶空間 。進程既可以在用戶空間運行,又可以在內核空間中運行。進程在用戶空間運行時,被稱爲進程的用戶態,而陷入內核空間的時候,被稱爲進程的內核態

  1. 內核空間 (Ring 0):具有最高權限,可以直接訪問所有資源(讀取文件)

常見的內核操作:分配內存、IO 操作、創建子進程……

  1. 用戶空間 (Ring 3):只能訪問受限資源,不能直接訪問內存等硬件設備,必須通過系統調用進入到內核中,才能訪問這些特權資源

常見的用戶態空間程序:數據庫、web 服務器、shell 腳本、Java 程序或者其他常見語言的程序……

我們一起看下 Linux 整體架構圖:

top 命令查看 CPU 資源

在 linux 系統使用top命令查看 cpu 時,能看到用戶態和內核態佔用的 cpu 資源

其中各項數據表示內容:

6eaG75

系統調用

對於一個進程來說,比如 web 服務的進程,一般是運行在用戶態的,但是當需要訪問內存、磁盤等硬件設備的時候需要先進入到內核態中,也就是從用戶態到內核態的轉變,而這種轉變需要藉助系統調用來實現。系統調用是內核向用戶進程提供服務的唯一方法。

比如查看文件時,需要執行多次系統調用:open() 打開文件,read() 讀取文件內容,write() 將文件內容輸出到控制檯,最後 close() 關閉文件等。系統調用的過程如下:

  1. 把 CPU 寄存器裏原來用戶態的指令位置保存起來;

  2. 爲了執行內核代碼,CPU 寄存器需要更新爲內核態指令的新位置,最後跳轉到內核態運行內核任務;

  3. 系統調用結束後,CPU 寄存器需要恢復原來保存的用戶態,然後再切換到用戶空間,繼續運行進程;

我們可以發現一次系統調用的過程,其實是發生了兩次 CPU 上下文切換(用戶態 - 內核態 - 用戶態)。

需要注意的是: 系統調用過程中,不涉及虛擬內存等進程用戶態的資源,也不會切換進程,也就是系統調用過程中一直是同一個進程在運行。系統調用過程也通常稱爲特權模式切換

進程上下文切換 和 系統調用的區別?

  1. 進程上下文切換是指,從一個進程切換到另一個進程;系統調用過程一直是同一個進程在運行,屬於進程之內的上下文切換

需要注意的是:進程是由內核來管理和調度的,進程的切換隻能發生在內核態, 保存上下文和恢復上下文的過程並不免費,需要消耗一定資源

  1. 進程的上下文不僅包括了虛擬內存、棧、全局變量等用戶空間的資源,還包括了內核堆棧、寄存器等內核空間的狀態。而系統調用這裏沒有涉及到虛擬內存等這些進程用戶態的資源

  2. 因此進程的上下文切換就比系統調用時多了一步:在保存當前進程的內核狀態和 CPU 寄存器之前,需要先把該進程的虛擬內存、棧等保存下來;而加載了下一進程的內核態後,還需要刷新進程的虛擬內存和用戶棧。

進程切換的常見場景

進程切換時需要切換上下文,換句話說,只有在進程調度的時候,才需要切換上下文。Linux 爲每個 CPU 都維護了一個就緒隊列,將活躍進程(即正在運行和正在等待 CPU 的進程)按照優先級和等待 CPU 的時間排序,然後選擇最需要 CPU 的進程,也就是優先級最高和等待 CPU 時間最長的進程來運行。進程切換的場景有:

  1. 進程時間片耗盡,爲了保證所有進程可以得到公平調度,CPU 時間被劃分爲一段段的時間片,這些時間片再被輪流分配給各個進程。當某個進程的時間片耗盡了,就會被系統掛起,切換到其它正在等待 CPU 的進程運行。

  2. 進程在系統資源不足(比如內存不足)時,要等到資源滿足後纔可以運行,這個時候進程也會被掛起,並由系統調度其他進程運行。

  3. 進程通過睡眠函數 sleep 主動把自己掛起,CPU 會重新調度;

  4. 當有 CPU 發現優先級更高的進程運行時,爲了去運行高優先級進程,當前進程會被掛起;

  5. 發生硬中斷,CPU 上的進程會被掛起,然後去執行內核中的中斷服務進程。

線程上下文切換

對操作系統來說,進程是資源分配的基本單位,而線程則是任務調度的基本單位。 內核中的任務調度實際是在調度線程,進程只是給線程提供虛擬內存、全局變量等資源。線程上下文切換時,共享相同的虛擬內存和全局變量等資源不需要修改。而線程自己的私有數據,如棧和寄存器等,上下文切換時需要保存。

關於進程和線程的區別:

因此線程上下文切換有兩種情況:

中斷上下文切換

上下文切換有時也因硬件中斷而觸發。硬件中斷是指硬件設備(如鍵盤、鼠標、調試解調器、系統時鐘)給內核發送的一個信號,該信號表示一個事件(如按鍵、鼠標移動、從網絡連接接收到數據)發生了。

爲了快速響應硬件的事件,中斷處理會打斷進程的正常調度和執行,然後調用中斷處理程序,響應設備事件。在打斷其他進程時,需要先將進程當前的狀態保存下來,等中斷結束後,進程仍然可以恢復回來。

跟進程上下文不同,中斷上下文切換不涉及進程的用戶態。所以,即便中斷過程打斷了一個正處在用戶態的進程,也不需要保存和恢復這個進程的虛擬內存、全局變量等用戶態資源。中斷上下文,只包括內核態中斷服務程序執行所必需的狀態,也就是 CPU 寄存器、內核堆棧、硬件中斷參數等。

中斷上下文切換並不涉及到進程的用戶態。所以即便中斷過程打斷了一個正處在用戶態的進程,也不需要保存和恢復這個進程的虛擬內存、全局變量等用戶態資源。中斷上下文,其實只包括內核態中斷服務程序執行所必須的狀態,包括 CPU 寄存器、內核堆棧、硬件中斷參數等。

對同一個 CPU 來說,中斷處理比進程擁有更高的優先級,所以中斷上下文切換不會與進程上下文切換同時發生。並且,由於中斷會打斷正常進程的調度和執行,所以大部分中斷處理程序都短小精悍,以便可以儘快完成。

上下文切換的消耗

上下文切換通常是計算密集型的。也就是說,它需要相當可觀的處理器時間,在每秒幾十上百次的切換中,每次切換都需要納秒量級的時間。所以,上下文切換對系統來說意味着消耗大量的 CPU 時間,事實上,可能是操作系統中時間消耗最大的操作。

Linux 相比與其他操作系統(包括其他類 Unix 系統)有很多的優點,其中有一項就是,其上下文切換和模式切換的時間消耗非常少。

根據 Tsuna 的測試報告,每次上下文切換都需要幾十納秒到數微妙的 CPU 時間,這個時間還是相當可觀的。不管是哪種場景導致的上下文切換,你都應該知道:

  1. CPU 上下文切換,是保證 Linux 系統正常工作的核心功能,一般情況下不需要開發人員特別關注。

  2. 但過多的上下文切換,會把 CPU 時間消耗在寄存器、內核棧以及虛擬內存等數據的保存和恢復上,從而縮短進程真正運行的時間,耗費大量的 CPU,甚至嚴重降低系統的整體性能。

補充:vmstat 命令查看整體 CPU 上下文切換情況

上面已經介紹到 CPU 上下文切換分爲進程上下文切換、線程上下文切換、中斷上下文切換,那麼過多的上下文切換會把 CPU 的時間消耗在寄存器、內核棧以及虛擬內存等數據的保存和恢復上,縮短進程真正運行的時間,成爲系統性能大幅下降的一個因素

所以我們可以使用 vmstat 這個工具來查詢系統的上下文切換情況,vmstat 是一個常用的系統性能分析工具,可以用來分析 CPU 上下文切換和中斷的次數 執行如下的命令:vmstat 5 (每隔 5s 輸出一組數據)該命令輸出信息中,各個字段以及含義:

procs:procs 中有 r 和 b 列,它報告進程統計信息。在上面的輸出中,在運行隊列(r)中有兩個進程在等待 CPU 並有零個休眠進程(b)。通常,它不應該超過處理器(或核心)的數量,如果你發現異常,最好使用 top 命令進一步地排除故障。

memory:memory 下有報告內存統計的 swpd、free、buff 和 cache 列。你可以用 free -m 命令看到同樣的信息。在上面的內存統計中,統計數據以千字節表示,這有點難以理解,最好添加 M 參數來看到以兆字節爲單位的統計數據。

swap:swap 有 si 和 so 列,用於報告交換內存統計信息。你可以用 free -m 命令看到相同的信息。

I/O:I/O 有 bi 和 bo 列,它以 “塊讀取” 和“塊寫入”的單位來報告每秒磁盤讀取和寫入的塊的統計信息。如果你發現有巨大的 I/O 讀寫,最好使用 iotop 和 iostat 命令來查看。

system:system 有 in 和 cs 列,它報告每秒的系統操作。

CPU:CPU 有 us、sy、id 和 wa 列,報告(所用的) CPU 資源佔總 CPU 時間的百分比。如果你發現異常,最好使用 top 和 free 命令。

補充:pidstat 命令查看進程的 CPU 上下文切換情況

執行如下的命令:pidstat,查看進程的 CPU 上下文切換情況 如果沒有安裝,yum install sysstat安裝即可

在結果中你能看到如下內容:

參考資料:

《Linux 內核設計與實現》

《Linux 性能優化實戰》

http://ifeve.com/context-switch-definition https://www.it610.com/article/1289356670568308736.htm

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/l7UIfQVkQoRmRgc_ufkOCA