深入理解 Linux 內核之進程睡眠(下)

  1. 用戶態睡眠

以 sleep 爲例來說明任務在用戶態是如何睡眠的。

首先我們通過 strace 工具來看下其調用的系統調用:

$ strace sleep 1

...
close(3)                                = 0
clock_nanosleep(CLOCK_REALTIME, 0, {tv_sec=1, tv_nsec=0}, NULL) = 0
close(1)                                = 0
...

可以發現 sleep 主要調用 clock_nanosleep 系統調用來進行睡眠(也就是說用戶態任務睡眠需要調用系統調用陷入內核)。

下面我們來研究下 clock_nanosleep 的實現(這裏集中到睡眠的實現,先忽略掉定時器等諸多的技術細節):

kernel/time/posix-timers.c

SYSCALL_DEFINE4(clock_nanosleep
->const struct k_clock *kc = clockid_to_kclock(which_clock);  //根據時鐘類型得到內核時鐘結構
    return kc->nsleep(which_clock, flags, &t); //調用內核時鐘結構的nsleep回調

我們傳遞過來的時鐘類型爲 CLOCK_REALTIME,則調用鏈爲:

kc->nsleep(CLOCK_REALTIME, flags, &t)
->clock_realtime.nsleep
    ->common_nsleep
        ->hrtimer_nanosleep  //kernel/time/hrtimer.c
            ->hrtimer_init_sleeper_on_stack
                    ->__hrtimer_init_sleeper
                        ->__hrtimer_init(&sl->timer, clock_id, mode); //初始化高精度定時器
                            sl->timer.function = hrtimer_wakeup;  //設置超時回調函數
                            sl->task = current;.//設置超時時要喚醒的任務
                     ->do_nanosleep  //睡眠操作

可以看到,睡眠函數最終調用到 hrtimer_nanosleep,它調用了兩個主要函數:__hrtimer_init_sleeper 和 do_nanosleep,前者主要設置高精度定時器,後者就是真正的睡眠,主要來看下 do_nanosleep:

 kernel/time/hrtimer.c
 do_nanosleep
 ->
         do {
                 set_current_state(TASK_INTERRUPTIBLE);  //設置可中斷的睡眠狀態
                 hrtimer_sleeper_start_expires(t, mode); //開啓高精度定時器

                 if (likely(t->task))
                         freezable_schedule(); //主動調度
                   

                 hrtimer_cancel(&t->timer);
                 mode = HRTIMER_MODE_ABS;

         } while (t->task && !signal_pending(current));  //是否記錄的有任務且沒有掛起的信號

         __set_current_state(TASK_RUNNING);  //設置爲可運行狀態

do_nanosleep 函數是睡眠的核心實現:首先設置任務的狀態爲可中斷的睡眠狀態,然後開啓了之前設置的高精度定時器,隨即調用 freezable_schedule 進行真正的睡眠。

來看下 freezable_schedule:

//include/linux/freezer.h
freezable_schedule
->schedule()
    ->__schedule(false);

可以看到最終調用主調度器__schedule 進行主動調度。

當任務睡眠完成,定時器超時,會調用之前在__hrtimer_init_sleeper 設置的超時回調函數 hrtimer_wakeup 將睡眠的任務喚醒(關於進程喚醒在這裏就不在贅述,在後面的進程喚醒專題文章在進行詳細解讀),然後就可以再次獲得處理器的使用權了。

總結:處於用戶態的任務,如果想要睡眠一段時間必須向內核請求服務(如調用 clock_nanosleep 系統調用),內核中會設置一個高精度定時器,來記錄要睡眠的任務,然後設置任務狀態爲可中斷的睡眠狀態,緊接着發生主動調度,這樣任務就發生睡眠了。

  1. 內核態睡眠 ========

當任務處於內核態時,有時候也需要睡眠一段時間,不像任務處於用戶態需要發生系統調用來請求內核進行睡眠,在內核態可以直接調用睡眠函數。當然,內核態中,睡眠有兩種場景:一種是睡眠特定的時間的延遲操作(喚醒條件爲超時),一種是等待特定條件滿足(如 IO 讀寫完成,可睡眠的鎖被釋放等)。

下面分別以 msleep 和 mutex 鎖爲例講解內核態睡眠:

5.1 msleep

msleep 做 ms 級別的睡眠延遲。

//kernel/time/timer.c
void msleep(unsigned int msecs)
{
        unsigned long timeout = msecs_to_jiffies(msecs) + 1;  //ms時間轉換爲jiffies

        while (timeout)
                timeout = schedule_timeout_uninterruptible(timeout);  //不可中斷睡眠
}

下面看下 schedule_timeout_uninterruptible:

這裏涉及到一個重要數據結構 process_timer

struct process_timer {
        struct timer_list timer;  //定時器結構
        struct task_struct *task; //定時器到期要喚醒的任務
};
schedule_timeout_uninterruptible
->  __set_current_state(TASK_UNINTERRUPTIBLE);  //設置任務狀態爲不可中斷睡眠
  return schedule_timeout(timeout); 
    ->expire = timeout + jiffies;   //計算到期時的jiffies值
        timer.task = current; //記錄定時器到期要喚醒的任務 爲當前任務
        timer_setup_on_stack(&timer.timer, process_timeout, 0);  //初始化定時器   超時回調爲process_timeout
        __mod_timer(&timer.timer, expire, MOD_TIMER_NOTPENDING); //添加定時器
        schedule();  //主動調度

再看下超時回調爲 process_timeout:

process_timeout
 ->struct process_timer *timeout = from_timer(timeout, t, timer); //通過定時器結構獲得process_timer
    wake_up_process(timeout->task); //喚醒其管理的任務

可以看到,msleep 實現睡眠也是通過定時器,首先設置當前任務狀態爲不可中斷睡眠,然後設置定時器超時時間爲傳遞的 ms 級延遲轉換的 jiffies, 超時回調爲 process_timeout,然後將定時器添加到系統中,最後調用 schedule 發起主動調度,當定時器超時的時候調用 process_timeout 來喚醒睡眠的任務。

5.2 mutex 鎖

mutex 鎖是可睡眠鎖的一種,當申請 mutex 鎖時發現其他內核路徑已經持有這把鎖,當前任務就會睡眠等待在這把鎖上。

下面我們來看他的實現,主要看睡眠的部分:

kernel/locking/mutex.c

mutex_lock
->__mutex_lock_slowpath
    ->__mutex_lock(lock, TASK_UNINTERRUPTIBLE, 0, NULL, _RET_IP_)  //睡眠的狀態爲不可中斷睡眠
        ->__mutex_lock_common
            ->
            ...
            waiter.task = current;  //記錄需要喚醒的任務爲當前任務
            set_current_state(state);  //設置睡眠狀態
            for (;;) {
                
                     if (__mutex_trylock(lock))  //嘗試獲得鎖
                         goto acquired;

                    schedule_preempt_disabled(); 
                        ->schedule();  //主動調度

            }
       acquired:
            __set_current_state(TASK_RUNNING);//設置狀態爲可運行狀態

可以看到 mutex 鎖實現睡眠套路和之前是一樣的:申請 mutex 鎖的時候,如果其他內核路徑已經持有這把鎖,首先通過 mutex 鎖的相關結構來記錄下當前任務,然後設置任務狀態爲不可中斷睡眠,接着在一個 for 循環中調用 schedule_preempt_disabled 發生主動調度,於是當前任務就睡眠在這把鎖上。當其他內核路徑釋放了這把鎖,就會喚醒等待在這把鎖上的任務,當前任務就獲得了這把鎖,然後進入鎖的臨界區,喚醒操作就完成了(關於喚醒的技術細節,後面的喚醒專題會詳細講解)。

  1. 總結 =====

進程睡眠按照應用場景可以分爲:延遲睡眠和等待某些特定條件而睡眠,實際上都可以歸於等待某些特定條件而睡眠,因爲延遲特定時間也可以作爲特定條件。進程睡眠按照進程所處的特權級別可以分爲:用戶態進程睡眠和內核態進程睡眠,用戶態進程睡眠需要進程通過系統調用陷入內核來發起睡眠請求。對於進程睡眠,內核主要需要做三大步操作:1. 設置任務狀態爲睡眠狀態 2. 記錄睡眠的任務 3. 發起主動調度。這三大步操作都是非常有必要,第一步設置睡眠狀態爲後面調用主調度器做必要的標識準備;第二步記錄下睡眠的任務是爲了以後喚醒任務來準備的;第三步是睡眠的主體部分,這裏會將睡眠的任務從運行隊列中踢出,選擇下一個任務運行。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/9dlYZB3SkiL0U_8niBR2IA