9 張圖帶你理解 Kafka 中高水位 HW
大家好,我是君哥。
Kafka 高水位(簡稱 HW)是 Kafka 中非常重要的一個概念,今天來聊一聊 HW。
1 HW 簡介
HW 是 Kafka 中 Offset 的一個值,HW 作爲一個邊界,Offset 小於 HW 的消息被稱爲已提交消息,這部分消息可以被消費者進行拉取消費,大於等於 HW 的消息被稱爲未提交消息,不能被消費者拉取。如下圖:
Offset 小於 108 的消息可以被消費者消費,Offset 大於等於 108 的消息不能被消費者消費 。
2 LEO 簡介
Kafka 中跟 Offset 相關的還有一個重要概念叫 LEO(Log End Offset)。LEO 表示 Offset 中的最後一個位置,也就是新消息寫入的第一個位置,這個位置還沒有消息。比如下圖中的 114 這個位置,新消息寫入時會從這個位置開始存儲。
3 HW 更新機制
對於 Kafka 的一個分區來說,分區的所有副本都有 HW 和 LEO 這 2 個重要屬性,不光是 Leader 副本。但是 Leader 副本的 HW 值被作爲整個分區的 HW。
因此,分區每個副本所在的 Broker 都保存了自己的 HW 和 LEO 值,而 Leader 副本所在的 Broker 節點還保存了 Follower 副本的 HW 和 LEO。
注意:這裏說的 Follower 必須跟 Leader 保持同步,一般用 2 個條件來判斷:
Follower 在 ISR 集合中;
Follower 中 LEO 值落後於 Leader LEO 值的時間,不超過參數 (replica.lag.time.max.ms) 的值,默認 10s。
如下圖,partition-test 這個分區有 3 個副本,Leader 和 Follower1、Follower2,Follower1 和 Follower2 所在的 Broker1 上保存了自己的 HW 和 LEO,而 Leader 所在的 Broker0 不僅保存了自己的 HW 和 LEO,還保存了 Follower1 跟 Follower2 的 HW 和 LEO。
3.1 Follower 更新
Broker1 和 Broker2 作爲分區的 Follower 副本,會從 Leader 拉取消息,寫入本地磁盤,然後更新 LEO。更新成功 LEO 後,比較自己的 LEO 值跟 Leader 副本發送的 HW 值,取較小的作爲自己的 HW。如下圖:
3.2 Leader 更新
從 3.1 中的圖可以看到,Leader 收到 Follower 拉取消息請求後,會根據 Follower 副本發送的拉取請求中的 Offset 更新本地保存的 Follower 的 LEO。同時 leader 會更新自己的 HW = min LEO of{Leader、Follower1、Follower2}。
需要注意的是,Leader 是不能更新 Follower 的 HW 的。
下面看一下 Leader 副本收到生產者發送的消息時是怎樣更新自己的 LEO 和 HW 的。如下圖:
4 一個示例
下面以 Leader 只有一個 Follower 的場景來說明 LEO 和 HW 的更新過程。
初始狀態,Leader 所在的 Broker 節點保存的 Leader 的 LEO 和 HW 都是 0,保存的 Follower 的 LEO = 0。
生產者發送一條消息後,Leader 節點更新 LEO = 1,此時 Leader 的 HW 是 0。Follower 還沒有發起拉取請求,所以 Follower 的 LEO 任然是 0,Leader 的 HW 是 0。
Follower 第一次拉取消息,發送給 Leader 的 Offset = 0,Leader 節點收到請求後,因爲 Offset = 0,所以本地保存的 Follower LEO 不變。Leader 節點返回消息給 Follower,Follower 節點寫入消息後更新自己的 LEO = 1。
Follower 第二次拉取消息,發送給 Leader 的 Offset = 1,Leader 節點收到請求後,更新本地保存的 Follower LEO = 1,更新自己的 HW = 1 並返回給 Follower,Follower 收到 Leader 發送的 HW 後更新自己的 HW = 1。
總結
高水位 HW 這個概念在 Kafka 中標記消息是否可以被消費者消費,這個概念跟 LEO 有着重要的關係。本文介紹了 LEO 和 HW 的更新機制,希望對你理解 HW 有所幫助。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/62i4zRyG838u227qSKMkJA