一篇文章讓你真正搞懂 epoll 機制
1.epoll 簡介
epoll 是 Linux 內核爲處理大批量文件描述符而作了改進的 poll,它能顯著提高程序在大量併發連接中只有少量活躍的情況下的系統 CPU 利用率。
epoll 可以理解爲 event poll,它是一種事件驅動的 I/O 模型,可以用來替代傳統的 select 和 poll 模型。epoll 的優勢在於它可以同時處理大量的文件描述符,而且不會隨着文件描述符數量的增加而降低效率。
epoll 的實現機制是通過內核與用戶空間共享一個事件表,這個事件表中存放着所有需要監控的文件描述符以及它們的狀態,當文件描述符的狀態發生變化時,內核會將這個事件通知給用戶空間,用戶空間再根據事件類型進行相應的處理。
epoll 的接口和工作模式相對於 select 和 poll 更加簡單易用,因此在高併發場景下被廣泛使用。
2.epoll 實現原理
- socket 等待隊列
socket 等待隊列用於在 socket 接收到數據後添加就緒 epoll 事件節點和喚醒 eventpoll 等待隊列項。
socket 收到數據後,喚醒 socket 等待隊列項,並執行等待隊列項註冊的回調函數 ep_poll_callback,ep_poll_callback 函數將就緒 epoll 事件節點添加至就緒隊列,並喚醒 eventpoll 等待隊列項。
- eventpoll 等待隊列
eventpoll 等待隊列用於阻塞當前進程,用於 epoll_wait 未檢測到就緒 epoll 事件節點的情況。
epoll_wait 檢測就緒隊列是否有 epoll 事件節點,沒有 epoll 事件節點,則使用等待隊列將當前進程掛起,後續 ep_poll_callback 函數會喚醒當前進程。
- 就緒隊列
就緒隊列用於存儲就緒 epoll 事件節點,用戶通過 epoll_wait 函數獲取就緒 epoll 事件節點。
- **紅黑樹 **
紅黑樹用於存儲通過 epoll_ctl 函數註冊的 epoll 事件節點。
3. 創建 epoll 文件
epoll_create 函數原型
int epoll_create(int size);
功能:epoll_create 函數用於創建 epoll 文件。
參數:
size:目前內核還沒有實際使用,只要大於 0 就行。
返回值:
成功:返回 epoll 文件描述符。
失敗:返回 - 1,並設置 errno。
4. 增加,刪除,修改 epoll 事件
epoll_ctl 函數原型
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
功能:epoll_ctl 函數用於增加,刪除,修改 epoll 事件,epoll 事件會存儲於內核 epoll 結構體紅黑樹中。
參數:
epfd:epoll 文件描述符。
op:操作碼
-
EPOLL_CTL_ADD:插入事件
-
EPOLL_CTL_DEL:刪除事件
-
EPOLL_CTL_MOD:修改事件
fd:epoll 事件綁定的套接字文件描述符。
events:epoll 事件結構體。
返回值:
成功:返回 0。
失敗:返回 - 1,並設置 errno。
struct epoll_event 結構體
struct epoll_event{
uint32_t events; //epoll 事件,參考事件列表
epoll_data_t data;
} ;
typedef union epoll_data {
void *ptr;
int fd; // 套接字文件描述符
uint32_t u32;
uint64_t u64;
} epoll_data_t;
epoll 事件列表
enum EPOLL_EVENTS
{
EPOLLIN = 0x001, //socket 可讀。
EPOLLPRI = 0x002, //socket 有緊急數據。
EPOLLOUT = 0x004, //socket 可寫。
EPOLLRDNORM = 0x040,
EPOLLRDBAND = 0x080,
EPOLLWRNORM = 0x100,
EPOLLWRBAND = 0x200,
EPOLLMSG = 0x400,
EPOLLERR = 0x008, //socket 文件出錯。
EPOLLHUP = 0x010, //socket 文件被掛起。
EPOLLRDHUP = 0x2000, //socket 文件被關閉或者關閉讀端。
EPOLLEXCLUSIVE = 1u << 28,
EPOLLWAKEUP = 1u << 29,
EPOLLONESHOT = 1u << 30, // 單次模式,執行完 epoll_wait 後需重新調用 epoll_ctl 註冊事件。
EPOLLET = 1u << 31 // 邊緣觸發,默認爲水平觸發。
};
epoll 事件如何處理?
epoll 事件處理原則:epoll_wait 獲取 epoll 事件 = 註冊 epoll 事件 & 就緒 epoll 事件
epoll_ctl 函數增加 epoll 事件時,系統默認註冊 EPOLLERR 和 EPOLLHUP 事件。
epoll 事件處理示例:
- 註冊 epoll 事件
struct epoll_event ev;
ev.data.fd = sock_fd;
ev.events = EPOLLIN; // 註冊 EPOLLIN 事件
epoll_ctl(efd, EPOLL_CTL_ADD, sock_fd, &ev);
- 就緒 epoll 事件
res = EPOLLIN | EPOLLRDNORM;
- epoll_wait 獲取事件
events=(EPOLLIN|EPOLLERR|EPOLLHUP)&(EPOLLIN|EPOLLRDNORM) = EPOLLIN;
注意:只有註冊的事件才能通過 epoll_wait 獲取。
5.epoll 事件就緒
epoll_wait 函數原型
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
功能:epoll_wait 用於監聽 epoll 事件。
參數:
epfd:epoll 文件描述符。
events:epoll 事件數組。
maxevents:epoll 事件數組長度。
timeout:超時時間,
-
小於 0:一直等待。
-
等於 0:立即返回。
-
大於 0:等待超時時間返回,單位毫秒。
返回值:
小於 0:出錯。
等於 0:超時。
大於 0:返回就緒事件個數。
6.epoll 編程流程
7.epoll 常見問題?
問題 1:LT 模式和 ET 模式區別?
LT 模式又稱水平觸發,ET 模式又稱邊緣觸發。
LT 模式只不過比 ET 模式多執行了一個步驟,就是當 epoll_wait 獲取完就緒隊列 epoll 事件後,LT 模式會再次將 epoll 事件添加到就緒隊列。
LT 模式多了這樣一個步驟會讓 LT 模式調用 epoll_wait 時會一直檢測到 epoll 事件,直到 socket 緩衝區數據清空爲止。
ET 模式則只會在緩衝區滿足特定情況下才會觸發 epoll_wait 獲取 epoll 事件。
LT 模式和 ET 模式優缺點。
問題 2:epoll 爲什麼高效?
-
eventpoll 等待隊列機制,當就緒隊列沒有 epoll 事件時主動讓出 CPU,阻塞進程,提高 CPU 利用率。
-
socket 等待隊列機制,只有接收到數據時纔會將 epoll 事件插入就緒隊列,喚醒進程獲取 epoll 事件。
-
紅黑樹提高 epoll 事件增加,刪除,修改效率。
-
任務越多,進程出讓 CPU 概率越小,進程工作效率越高,所以 epoll 非常適合高併發場景。
問題 3:epoll 採用阻塞方式是否影響性能?
epoll 機制本身也是阻塞的,當 epoll_wait 未檢測到 epoll 事件時,會出讓 CPU,阻塞進程,這種阻塞是非常有必要的,如果不及時出讓 CPU 會浪費 CPU 資源,導致其他任務無法搶佔 CPU,只要 epoll 機制能夠在檢測到 epoll 事件後,及時喚醒進程處理,並不會影響 epoll 性能。
問題 4:socket 採用阻塞還是非阻塞?
socket 採用非阻塞方式。
epoll 機制屬於 IO 多路複用機制,這種機制的特點是一個進程處理多路 IO 請求,如果 socket 設置成阻塞模式會存在以下幾個問題:
-
一個進程同一時間只能處理一個 socket 數據,如果 socket 被阻塞,那麼該進程無法處理其他的 socket 數據,嚴重影響了性能。
-
阻塞的本質是進程狀態和上下文的切換,頻繁的阻塞會把讓 CPU 一直處於上下文切換的狀態,導致 CPU 瞎忙。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/2jlr4BvUlLHBbyDu672PMg