探討 Linux CPU 的上下文切換

我們都知道 Linux 是一個多任務操作系統,它支持的任務同時運行的數量遠遠大於 CPU 的數量。當然,這些任務實際上並不是同時運行的(Single CPU),而是因爲系統在短時間內將 CPU 輪流分配給任務,造成了多個任務同時運行的假象。

CPU 上下文(CPU Context)

在每個任務運行之前,CPU 需要知道在哪裏加載和啓動任務。這意味着系統需要提前幫助設置 CPU 寄存器程序計數器

CPU 寄存器是內置於 CPU 中的小型但速度極快的內存。程序計數器用於存儲 CPU 正在執行的或下一條要執行指令的位置。

它們都是 CPU 在運行任何任務之前必須依賴的依賴環境,因此也被稱爲 “CPU 上下文”。如下圖所示:

知道了 CPU 上下文是什麼,我想你理解 CPU 上下文切換就很容易了。“CPU 上下文切換” 指的是先保存上一個任務的 CPU 上下文(CPU 寄存器和程序計數器),然後將新任務的上下文加載到這些寄存器和程序計數器中,最後跳轉到程序計數器。

這些保存的上下文存儲在系統內核中,並在重新安排任務執行時再次加載。這確保了任務的原始狀態不受影響,並且任務似乎在持續運行。

CPU 上下文切換的類型

你可能會說 CPU 上下文切換無非就是更新 CPU 寄存器和程序計數器值,而這些寄存器是爲了快速運行任務而設計的,那爲什麼會影響 CPU 性能呢?

在回答這個問題之前,請問,你有沒有想過這些 “任務” 是什麼?你可能會說一個任務就是一個進程或者一個線程。是的,進程和線程正是最常見的任務,但除此之外,還有其他類型的任務。

別忘了硬件中斷也是一個常見的任務,硬件觸發信號,會引起中斷處理程序的調用。

因此,CPU 上下文切換至少有三種不同的類型:

讓我們一一來看看。

進程上下文切換

Linux 按照特權級別將進程的運行空間劃分爲內核空間和用戶空間,分別對應下圖中 Ring 0Ring 3 的 CPU 特權級別的 。

從另一個角度看,一個進程既可以在用戶空間也可以在內核空間運行。當一個進程在用戶空間運行時,稱爲該進程的用戶態,當它落入內核空間時,稱爲該進程的內核態

用戶態內核態的轉換需要通過系統調用來完成。例如,當我們查看一個文件的內容時,我們需要以下系統調用:

那麼在上述系統調用過程中是否會發生 CPU 上下文切換呢?當然是的。

這需要先保存 CPU 寄存器中原來的用戶態指令的位置。接下來,爲了執行內核態的代碼,需要將 CPU 寄存器更新到內核態指令的新位置。最後是跳轉到內核態運行內核任務。

那麼系統調用結束後,CPU 寄存器需要恢復原來保存的用戶狀態,然後切換到用戶空間繼續運行進程。

因此,在一次系統調用的過程中,實際上有兩次 CPU 上下文切換。

但需要指出的是,系統調用進程不會涉及進程切換,也不會涉及虛擬內存等系統資源切換。這與我們通常所說的 “進程上下文切換” 不同。進程上下文切換是指從一個進程切換到另一個進程,而系統調用期間始終運行同一個進程

系統調用過程通常被稱爲特權模式切換,而不是上下文切換。但實際上,在系統調用過程中,CPU 的上下文切換也是不可避免的。

進程上下文切換 vs 系統調用

那麼進程上下文切換和系統調用有什麼區別呢?首先,進程是由內核管理的,進程切換隻能發生在內核態。因此,進程上下文不僅包括虛擬內存全局變量等用戶空間資源,還包括內核棧寄存器等內核空間的狀態。

所以進程上下文切換系統調用要多出一步:

在保存當前進程的內核狀態和 CPU 寄存器之前,需要保存進程的虛擬內存、棧等;並加載下一個進程的內核狀態。

根據 Tsuna 的測試報告,每次上下文切換需要幾十納秒至微秒的 CPU 時間。這個時間是相當可觀的,尤其是在大量進程上下文切換的情況下,很容易導致 CPU 花費大量時間來保存和恢復寄存器、內核棧、虛擬內存等資源。這正是我們在上一篇文章中談到的,一個導致平均負載上升的重要因素。

那麼,該進程何時會被調度 / 切換到在 CPU 上運行?其實有很多場景,下面我爲大家總結一下:

瞭解這些場景是非常有必要的,因爲一旦上下文切換出現性能問題,它們就是幕後殺手。

線程上下文切換

線程和進程最大的區別在於,線程是任務調度的基本單位,而進程是資源獲取的基本單位。

說白了,內核中所謂的任務調度,實際的調度對象是線程;而進程只爲線程提供虛擬內存和全局變量等資源。所以,對於線程和進程,我們可以這樣理解:

這樣,線程的上下文切換其實可以分爲兩種情況:

顯然,同一個進程內的線程切換比切換多個進程消耗的資源要少。這也是多線程替代多進程的優勢。

中斷上下文切換

除了前面兩種上下文切換之外,還有另外一種場景也輸出 CPU 上下文切換的,那就是中斷

爲了快速響應事件,硬件中斷會中斷正常的調度和執行過程,進而調用中斷處理程序

在中斷其他進程時,需要保存進程的當前狀態,以便中斷後進程仍能從原始狀態恢復。

與進程上下文不同,中斷上下文切換不涉及進程的用戶態。因此,即使中斷進程中斷了處於用戶態的進程,也不需要保存和恢復進程的虛擬內存、全局變量等用戶態資源。

另外,和進程上下文切換一樣,中斷上下文切換也會消耗 CPU。過多的切換次數會消耗大量的 CPU 資源,甚至嚴重降低系統的整體性能。因此,當您發現中斷過多時,需要注意排查它是否會對您的系統造成嚴重的性能問題。

問題排查

工具

vmstat ——是一個常用的系統性能分析工具,主要用來分析系統的內存使用情況,也常用來分析 CPU 上下文切換和中斷的次數

pidstat ——vmstat 只給出了系統總體的上下文切換情況,要想查看每個進程的詳細情況,就需要使用 pidstat,加上 - w,可以查看每個進程上下文切換的情況

/proc/interrupts——/proc 實際上是 linux 的虛擬文件系統用於內核空間和用戶空間的通信,/proc/interrupts 是這種通信機制的一部分,提供了一個只讀的中斷使用情況。

perf stat  可以統計很多和 CPU 相關核心數據,比如 cache' miss,上下文切換,CPI 等。

實戰

vmstat

# 每隔1秒輸出1組數據(需要Ctrl+C才結束)
$ vmstat 1
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 6  0      0 6487428 118240 1292772    0    0     0     0 9019 1398830 16 84  0  0  0
 8  0      0 6487428 118240 1292772    0    0     0     0 10191 1392312 16 84  0  0  0
cs(context switch)是每秒上下文切換的次數
in   (interrupt)每秒中斷的次數
r    (Running or Runnnable)是就緒隊列的長度,也就是正在運行和等待CPU的進程數。
b  (Blocked) 則是處於不可中斷睡眠狀態的進程數
分析:
查看cs大小(實驗時cs驟升到百萬)
同時注意r列(實驗時爲8),機器cpu爲1,遠遠超過1,必然會有大量的CPU競爭
us和sy列,計算cpu使用率總和(實驗加起來快100%,其中sy高達84%,說明cpu主要被內核佔用)
in列,查看大小(實驗中驟升到一萬,說明中斷處理也是潛在的問題)
綜合可知,系統的就需隊列過長,也就是正在運行和等待CPU的進程數過多,導致了大量的上下文切換,而上下文切換導致了cpu佔用率高

pidstat 查看進程上下文切換情況

# 每隔1秒輸出1組數據(需要 Ctrl+C 才結束)
# -w參數表示輸出進程切換指標,而-u參數則表示輸出CPU使用指標
$ pidstat -w -u 1
08:06:33      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
08:06:34        0     10488   30.00  100.00    0.00    0.00  100.00     0  sysbench
08:06:34        0     26326    0.00    1.00    0.00    0.00    1.00     0  kworker/u4:2

08:06:33      UID       PID   cswch/s nvcswch/s  Command
08:06:34        0         8     11.00      0.00  rcu_sched
08:06:34        0        16      1.00      0.00  ksoftirqd/1
08:06:34        0       471      1.00      0.00  hv_balloon
08:06:34        0      1230      1.00      0.00  iscsid
08:06:34        0      4089      1.00      0.00  kworker/1:5
08:06:34        0      4333      1.00      0.00  kworker/0:3
08:06:34        0     10499      1.00    224.00  pidstat
08:06:34        0     26326    236.00      0.00  kworker/u4:2
08:06:34     1000     26784    223.00      0.00  sshd
cswch  表示每秒自願上下文切換的次數,是指進程無法獲取所需資源,導致的上下文切換,比如說,I/O,內存等系統資源不足時,就會發生自願上下文切換。
nvcswch 表示每秒非自願上下文切換的次數,則是指進程由於時間片已到等原因,被系統強制調度,進而發生的上下文切換。
分析:
pidstat查看果然是sysbench導致了cpu達到100%,但上下文切換來自其他進程,包括非自願上下文切換最高的pidstat,以及自願上下文切換最高的kworker和sshd
但pidtstat輸出的上下文切換次數加起來才幾百和vmstat的百萬明顯小很多,現在vmstat輸出的是線程,而pidstat加上-t後才輸出線程指標

# 每隔1秒輸出一組數據(需要 Ctrl+C 才結束)
# -wt 參數表示輸出線程的上下文切換指標
$ pidstat -wt 1
08:14:05      UID      TGID       TID   cswch/s nvcswch/s  Command
...
08:14:05        0     10551         -      6.00      0.00  sysbench
08:14:05        0         -     10551      6.00      0.00  |__sysbench
08:14:05        0         -     10552  18911.00 103740.00  |__sysbench
08:14:05        0         -     10553  18915.00 100955.00  |__sysbench
08:14:05        0         -     10554  18827.00 103954.00  |__sysbench
...
pidstat子線程加一起就差不多百萬了。

查看中斷——可排查是哪些中斷引起的(變化速度最快的)

# -d 參數表示高亮顯示變化的區域
$ watch -d cat /proc/interrupts
           CPU0       CPU1
...
RES:    2450431    5279697   Rescheduling interrupts
...

觀察一段時間後,可以發現變化最快的是重新調度中斷(RES, REScheduling interrupt)。這種中斷類型表明處於空閒狀態的 CPU 被喚醒以調度新的任務運行。所以這裏的中斷增加是因爲太多的任務調度問題,這和前面上下文切換次數的分析結果是一致的.

現在回到最初的問題,每秒多少次上下文切換是正常的?

這個值實際上取決於系統本身的 CPU 性能。如果系統的上下文切換次數比較穩定的話,幾百到一萬應該是正常的。但是,當上下文切換次數超過 10000,或者切換次數快速增加時,很可能是出現了性能問題。

perf stat 可以排查系統上下文切換速率變化

可以觀察 context-switcehes 數據的變化,有沒有突增,可以發現一些異常想象。

場景
小結

參考

https://www.jianshu.com/p/1b7b78538531

https://medium.com/geekculture/linux-cpu-context-switch-deep-dive-764bfdae4f01


本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/eqpGaPo3V2plM_m3KkN1QA