聊聊 top 命令中的 CPU 使用率

平常我們使用 top 命令來查看系統的性能情況,在 top 命令中可以看到很多不同類型的 CPU 使用率,如下圖紅框中標出部分:

下面,我們來介紹一下這些 CPU 使用率的意義:

當然,單靠上面的解釋來理解它們的意義還是比較困難的。所以,本文主要從源碼的角度來分析它們到底代表什麼。

時鐘中斷

首先,我們要知道統計 CPU 使用情況在什麼地方執行的。在分析之前,我們先來了解下 時鐘中斷

時鐘中斷:是一種硬中斷,由時間硬件(系統定時器,一種可編程硬件)產生。當 CPU 接收到時鐘中斷信號後,會在處理完當前指令後調用 時鐘中斷處理程序 來完成更新系統時間、執行週期性任務等。

可以發現,統計 CPU 使用情況是在 時鐘中斷處理程序 中完成的。

每個 CPU 的使用情況通過 cpu_usage_stat 結構來記錄,我們來看看其定義:

struct cpu_usage_stat {
    cputime64_t user;
    cputime64_t nice;
    cputime64_t system;
    cputime64_t softirq;
    cputime64_t irq;
    cputime64_t idle;
    cputime64_t iowait;
    cputime64_t steal;
    cputime64_t guest;
};

從 cpu_usage_stat 結構的定義可以看出,其每個字段與 top 命令的 CPU 使用率類型一一對應。在內核初始化時,會爲每個 CPU 創建一個 cpu_usage_stat 結構,用於統計 CPU 的使用情況。

OK,現在我們來分析下內核是怎麼統計 CPU 的使用情況的。

每次執行 時鐘中斷處理程序 都會調用 account_process_tick 函數進行 CPU 使用情況統計,我們來分析一下 account_process_tick 函數的實現:

void account_process_tick(struct task_struct *p, int user_tick)
{
    cputime_t one_jiffy_scaled = cputime_to_scaled(cputime_one_jiffy);
    struct rq *rq = this_rq();

    // 說明:user_tick 變量標識當前是否處於執行用戶應用程序

    if (user_tick) {
        // 1. 如果 CPU 在執行用戶程序, 那麼調用 account_user_time 進行統計
        account_user_time(p, cputime_one_jiffy, one_jiffy_scaled);
    } else if ((p != rq->idle) || (irq_count() != HARDIRQ_OFFSET)) {
        // 2. 如果 CPU 在執行內核代碼, 那麼調用 account_system_time 進行統計
        account_system_time(p, HARDIRQ_OFFSET, cputime_one_jiffy,
                            one_jiffy_scaled);
    } else {
        // 3. 否則說明 CPU 在執行 idle 進程(也就是處於空閒狀態), 那麼調用 account_idle_time 進行統計
        account_idle_time(cputime_one_jiffy);
    }
}

account_process_tick 函數主要分 3 種情況進行統計,如下:

CPU 使用情況統計

下面我們分別對這 3 種統計進行分析。

1. 統計用戶程序執行時間

統計用戶程序的執行時間是通過 account_user_time 函數來完成的,我們來看看其實現:

void account_user_time(struct task_struct *p, cputime_t cputime,
                       cputime_t cputime_scaled)
{
    // 獲取 CPU 的統計結構(每個CPU一個 cpu_usage_stat 結構)
    struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat; 
    cputime64_t tmp;
    ...

    // 分 2 種情況統計 CPU 的使用情況
    // 1. 如果進程的 nice 值大於0, 那麼將會統計到 nice 字段中
    // 2. 如果進程的 nice 值小於等於0, 那麼將會統計到 user 字段中
    if (TASK_NICE(p) > 0)
        cpustat->nice = cputime64_add(cpustat->nice, tmp);
    else
        cpustat->user = cputime64_add(cpustat->user, tmp);
    ...
}

account_user_time 函數主要分兩種情況統計:

這裏說明一下進程 nice 值的作用,nice 值越大,說明進程的優先級越低。所以,nice 統計值主要用來統計低優先級進程的佔使用 CPU 的情況。也說明了,user 和 nice 統計值都屬於執行用戶程序的 CPU 時間。

2. 統計內核代碼執行時間

如果在發生時鐘中斷前,CPU 處於內核態,也就是說在執行內核代碼。那麼將會調用 account_system_time 函數進行統計,account_system_time 函數實現如下:

void account_system_time(struct task_struct *p, int hardirq_offset,
                         cputime_t cputime, cputime_t cputime_scaled)
{
    // 獲取 CPU 的統計結構(每個CPU一個 cpu_usage_stat 結構)
    struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
    cputime64_t tmp;
    ...

    // 主要分 3 種情況進行統計
    // 1. 如果當前處於硬中斷執行上下文, 那麼統計到 irq 字段中
    // 2. 如果當前處於軟中斷執行上下文, 那麼統計到 softirq 字段中
    // 3. 否則統計到 system 字段中
    if (hardirq_count() - hardirq_offset)
        cpustat->irq = cputime64_add(cpustat->irq, tmp);
    else if (softirq_count())
        cpustat->softirq = cputime64_add(cpustat->softirq, tmp);
    else
        cpustat->system = cputime64_add(cpustat->system, tmp);
    ...
}

account_system_time 函數主要分 3 種情況進行統計:

從上面代碼可以看出,irq 和 softirq 統計值也算是內核代碼執行時間。

3. idle 進程執行時間統計

當系統中沒有可運行的進程時,將會執行 idle 進程。也就是說,當系統執行 idle 進程時,表示系統正處於空閒狀態。

idle 進程執行時間統計由 account_idle_time 函數完成,其實現如下:

void account_idle_time(cputime_t cputime)
{
    struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
    cputime64_t cputime64 = cputime_to_cputime64(cputime);
    struct rq *rq = this_rq();

    // 分 2 種情況統計 CPU 的使用情況
    // 1. 如果系統有進程正在等待 I/O 操作完成, 那麼將統計到 iowait 字段中
    // 2. 否則將統計到 idle 字段中
    if (atomic_read(&rq->nr_iowait) > 0)
        cpustat->iowait = cputime64_add(cpustat->iowait, cputime64);
    else
        cpustat->idle = cputime64_add(cpustat->idle, cputime64);
}

account_idle_time 函數也分兩種情況進行統計:

從上面的分析可以看出,iowait 統計值也屬於空閒時間的一種。

top 命令的 CPU 使用率

通過源碼分析,我們知道 top 命令中 CPU 使用率各種類型的意思,現在我們來介紹一下 top 命令是怎麼計算各種類型的 CPU 使用率。

要獲取各個 CPU 的使用情況信息,可以通過讀取 /proc/stat 文件獲取,如下:

[vagrant@localhost ~]$ cat /proc/stat
cpu  245 10 1142 1097923 95 0 28 0 0 0
cpu0 245 10 1142 1097923 95 0 28 0 0 0
...

上面的結果顯示了 CPU 的使用情況信息,第一行代表所有 CPU 的總和,而第二行開始表示每個 CPU 核心的使用情況信息。因爲我的電腦只有一個核,所以只有一條數據。

下面說說這些數據的意義,從第一個數值開始分別代表:user ,nicesystemidleiowait, irqsoftirqsteal

所以,top 命令的 CPU 使用率計算公式如下:

CPU總時間 = user + nice + system + idle + wait + irq + softirq + steal
%us = user / CPU總時間
%ni = nice / CPU總時間
%sy = system / CPU總時間
%id = idel / CPU總時間
%wa = wait / CPU總時間
%hi = irq / CPU總時間
%si = softirq / CPU總時間
%st = steal / CPU總時間

嗯,看起來還是挺簡單的。

總結

本文主要分析了 top 命令中的 CPU 使用率的意義和實現原理,希望通過本文,能夠幫助大家對 top 命令有更深的認識。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/106rT88LSg_5IZnigBbRUA