一篇文章讓你真正搞懂 epoll 機制

1.epoll 簡介

epoll 是 Linux 內核爲處理大批量文件描述符而作了改進的 poll，它能顯著提高程序在大量併發連接中只有少量活躍的情況下的系統 CPU 利用率。

epoll 可以理解爲 event poll，它是一種事件驅動的 I/O 模型，可以用來替代傳統的 select 和 poll 模型。epoll 的優勢在於它可以同時處理大量的文件描述符，而且不會隨着文件描述符數量的增加而降低效率。

epoll 的實現機制是通過內核與用戶空間共享一個事件表，這個事件表中存放着所有需要監控的文件描述符以及它們的狀態，當文件描述符的狀態發生變化時，內核會將這個事件通知給用戶空間，用戶空間再根據事件類型進行相應的處理。

epoll 的接口和工作模式相對於 select 和 poll 更加簡單易用，因此在高併發場景下被廣泛使用。

2.epoll 實現原理

socket 等待隊列

socket 等待隊列用於在 socket 接收到數據後添加就緒 epoll 事件節點和喚醒 eventpoll 等待隊列項。

socket 收到數據後，喚醒 socket 等待隊列項，並執行等待隊列項註冊的回調函數 ep_poll_callback，ep_poll_callback 函數將就緒 epoll 事件節點添加至就緒隊列，並喚醒 eventpoll 等待隊列項。

eventpoll 等待隊列

eventpoll 等待隊列用於阻塞當前進程，用於 epoll_wait 未檢測到就緒 epoll 事件節點的情況。

epoll_wait 檢測就緒隊列是否有 epoll 事件節點，沒有 epoll 事件節點，則使用等待隊列將當前進程掛起，後續 ep_poll_callback 函數會喚醒當前進程。

就緒隊列

就緒隊列用於存儲就緒 epoll 事件節點，用戶通過 epoll_wait 函數獲取就緒 epoll 事件節點。

**紅黑樹 **

紅黑樹用於存儲通過 epoll_ctl 函數註冊的 epoll 事件節點。

3. 創建 epoll 文件

epoll_create 函數原型

int epoll_create(int size);

功能：epoll_create 函數用於創建 epoll 文件。

參數：

size：目前內核還沒有實際使用，只要大於 0 就行。

返回值：

成功：返回 epoll 文件描述符。

失敗：返回 - 1，並設置 errno。

4. 增加，刪除，修改 epoll 事件

epoll_ctl 函數原型

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

功能：epoll_ctl 函數用於增加，刪除，修改 epoll 事件，epoll 事件會存儲於內核 epoll 結構體紅黑樹中。

參數：

epfd：epoll 文件描述符。

op：操作碼

EPOLL_CTL_ADD：插入事件
EPOLL_CTL_DEL：刪除事件
EPOLL_CTL_MOD：修改事件

fd：epoll 事件綁定的套接字文件描述符。

events：epoll 事件結構體。

返回值：

成功：返回 0。

失敗：返回 - 1，並設置 errno。

struct epoll_event 結構體

struct epoll_event{

uint32_t events; //epoll 事件，參考事件列表

epoll_data_t data;

} ;

typedef union epoll_data {

void *ptr;

int fd; // 套接字文件描述符

uint32_t u32;

uint64_t u64;

} epoll_data_t;

epoll 事件列表

enum EPOLL_EVENTS

{

EPOLLIN = 0x001, //socket 可讀。

EPOLLPRI = 0x002, //socket 有緊急數據。

EPOLLOUT = 0x004, //socket 可寫。

EPOLLRDNORM = 0x040,

EPOLLRDBAND = 0x080,

EPOLLWRNORM = 0x100,

EPOLLWRBAND = 0x200,

EPOLLMSG = 0x400,

EPOLLERR = 0x008, //socket 文件出錯。

EPOLLHUP = 0x010, //socket 文件被掛起。

EPOLLRDHUP = 0x2000, //socket 文件被關閉或者關閉讀端。

EPOLLEXCLUSIVE = 1u << 28,

EPOLLWAKEUP = 1u << 29,

EPOLLONESHOT = 1u << 30, // 單次模式，執行完 epoll_wait 後需重新調用 epoll_ctl 註冊事件。

EPOLLET = 1u << 31 // 邊緣觸發，默認爲水平觸發。

};

epoll 事件如何處理？

epoll 事件處理原則：epoll_wait 獲取 epoll 事件 = 註冊 epoll 事件 & 就緒 epoll 事件

epoll_ctl 函數增加 epoll 事件時，系統默認註冊 EPOLLERR 和 EPOLLHUP 事件。

epoll 事件處理示例：

註冊 epoll 事件

struct epoll_event ev;

ev.data.fd = sock_fd;

ev.events = EPOLLIN; // 註冊 EPOLLIN 事件

epoll_ctl(efd, EPOLL_CTL_ADD, sock_fd, &ev);

就緒 epoll 事件

res = EPOLLIN | EPOLLRDNORM;

epoll_wait 獲取事件

events=(EPOLLIN|EPOLLERR|EPOLLHUP)&(EPOLLIN|EPOLLRDNORM) = EPOLLIN;

注意：只有註冊的事件才能通過 epoll_wait 獲取。

5.epoll 事件就緒

epoll_wait 函數原型

int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

功能：epoll_wait 用於監聽 epoll 事件。

參數：

epfd：epoll 文件描述符。

events：epoll 事件數組。

maxevents：epoll 事件數組長度。

timeout：超時時間，

小於 0：一直等待。
等於 0：立即返回。
大於 0：等待超時時間返回，單位毫秒。

返回值：

小於 0：出錯。

等於 0：超時。

大於 0：返回就緒事件個數。

6.epoll 編程流程

7.epoll 常見問題？

問題 1：LT 模式和 ET 模式區別？

LT 模式又稱水平觸發，ET 模式又稱邊緣觸發。

LT 模式只不過比 ET 模式多執行了一個步驟，就是當 epoll_wait 獲取完就緒隊列 epoll 事件後，LT 模式會再次將 epoll 事件添加到就緒隊列。

LT 模式多了這樣一個步驟會讓 LT 模式調用 epoll_wait 時會一直檢測到 epoll 事件，直到 socket 緩衝區數據清空爲止。

ET 模式則只會在緩衝區滿足特定情況下才會觸發 epoll_wait 獲取 epoll 事件。

LT 模式和 ET 模式優缺點。

問題 2：epoll 爲什麼高效？

eventpoll 等待隊列機制，當就緒隊列沒有 epoll 事件時主動讓出 CPU，阻塞進程，提高 CPU 利用率。
socket 等待隊列機制，只有接收到數據時纔會將 epoll 事件插入就緒隊列，喚醒進程獲取 epoll 事件。
紅黑樹提高 epoll 事件增加，刪除，修改效率。
任務越多，進程出讓 CPU 概率越小，進程工作效率越高，所以 epoll 非常適合高併發場景。

問題 3：epoll 採用阻塞方式是否影響性能？

epoll 機制本身也是阻塞的，當 epoll_wait 未檢測到 epoll 事件時，會出讓 CPU，阻塞進程，這種阻塞是非常有必要的，如果不及時出讓 CPU 會浪費 CPU 資源，導致其他任務無法搶佔 CPU，只要 epoll 機制能夠在檢測到 epoll 事件後，及時喚醒進程處理，並不會影響 epoll 性能。

問題 4：socket 採用阻塞還是非阻塞？

socket 採用非阻塞方式。

epoll 機制屬於 IO 多路複用機制，這種機制的特點是一個進程處理多路 IO 請求，如果 socket 設置成阻塞模式會存在以下幾個問題：

一個進程同一時間只能處理一個 socket 數據，如果 socket 被阻塞，那麼該進程無法處理其他的 socket 數據，嚴重影響了性能。
阻塞的本質是進程狀態和上下文的切換，頻繁的阻塞會把讓 CPU 一直處於上下文切換的狀態，導致 CPU 瞎忙。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/2jlr4BvUlLHBbyDu672PMg

猜你喜歡