Redis 實戰篇:Redis 與 MySQL 雙寫一致性如何保證?

前言

四月份的時候,有位好朋友去美團面試。他說,被問到 Redis 與 MySQL 雙寫一致性如何保證?這道題其實就是在問緩存和數據庫在雙寫場景下,一致性是如何保證的?本文將跟大家一起來探討如何回答這個問題。

談談一致性

一致性就是數據保持一致,在分佈式系統中,可以理解爲多個節點中數據的值是一致的。

三個經典的緩存模式

緩存可以提升性能、緩解數據庫壓力,但是使用緩存也會導致數據不一致性的問題。一般我們是如何使用緩存呢?有三種經典的緩存使用模式:

Cache-Aside Pattern

Cache-Aside Pattern,即旁路緩存模式,它的提出是爲了儘可能地解決緩存與數據庫的數據不一致問題。

Cache-Aside 讀流程

Cache-Aside Pattern 的讀請求流程如下:

Cache-Aside 讀請求

  1. 讀的時候,先讀緩存,緩存命中的話,直接返回數據

  2. 緩存沒有命中的話,就去讀數據庫,從數據庫取出數據,放入緩存後,同時返回響應。

Cache-Aside 寫流程

Cache-Aside Pattern 的寫請求流程如下:

Cache-Aside 寫請求

更新的時候,先更新數據庫,然後再刪除緩存

Read-Through/Write-Through(讀寫穿透)

Read/Write-Through 模式中,服務端把緩存作爲主要數據存儲。應用程序跟數據庫緩存交互,都是通過抽象緩存層完成的。

Read-Through

Read-Through 的簡要流程如下

Read-Through 簡要流程

  1. 從緩存讀取數據,讀到直接返回

  2. 如果讀取不到的話,從數據庫加載,寫入緩存後,再返回響應。

這個簡要流程是不是跟 Cache-Aside 很像呢?其實 Read-Through 就是多了一層 Cache-Provider 而已,流程如下:

Read-Through 流程

Read-Through 實際只是在 Cache-Aside 之上進行了一層封裝,它會讓程序代碼變得更簡潔,同時也減少數據源上的負載。

Write-Through

Write-Through 模式下,當發生寫請求時,也是由緩存抽象層完成數據源和緩存數據的更新, 流程如下:

Write-behind (異步緩存寫入)

Write-behind 跟 Read-Through/Write-Through 有相似的地方,都是由 Cache Provider 來負責緩存和數據庫的讀寫。它們又有個很大的不同:Read/Write-Through 是同步更新緩存和數據的,Write-Behind 則是隻更新緩存,不直接更新數據庫,通過批量異步的方式來更新數據庫。

Write behind 流程

這種方式下,緩存和數據庫的一致性不強,對一致性要求高的系統要謹慎使用。但是它適合頻繁寫的場景,MySQL 的 InnoDB Buffer Pool 機制就使用到這種模式。

操作緩存的時候,到底是刪除緩存呢,還是更新緩存?

日常開發中,我們一般使用的就是 Cache-Aside 模式。有些小夥伴可能會問, Cache-Aside 在寫入請求的時候,爲什麼是刪除緩存而不是更新緩存呢?

Cache-Aside 寫入流程

我們在操作緩存的時候,到底應該刪除緩存還是更新緩存呢?我們先來看個例子:

  1. 線程 A 先發起一個寫操作,第一步先更新數據庫

  2. 線程 B 再發起一個寫操作,第二步更新了數據庫

  3. 由於網絡等原因,線程 B 先更新了緩存

  4. 線程 A 更新緩存。

這時候,緩存保存的是 A 的數據(老數據),數據庫保存的是 B 的數據(新數據),數據不一致了,髒數據出現啦。如果是刪除緩存取代更新緩存則不會出現這個髒數據問題。

更新緩存相對於刪除緩存,還有兩點劣勢:

雙寫的情況下,先操作數據庫還是先操作緩存?

Cache-Aside緩存模式中,有些小夥伴還是會有疑問,在寫請求過來的時候,爲什麼是先操作數據庫呢?爲什麼不先操作緩存呢?

假設有 A、B 兩個請求,請求 A 做更新操作,請求 B 做查詢讀取操作。

  1. 線程 A 發起一個寫操作,第一步 del cache

  2. 此時線程 B 發起一個讀操作,cache miss

  3. 線程 B 繼續讀 DB,讀出來一個老數據

  4. 然後線程 B 把老數據設置入 cache

  5. 線程 A 寫入 DB 最新的數據

醬紫就有問題啦,緩存和數據庫的數據不一致了。緩存保存的是老數據,數據庫保存的是新數據。因此,Cache-Aside 緩存模式,選擇了先操作數據庫而不是先操作緩存。

數據庫和緩存數據保持強一致,可以嘛?

實際上,沒辦法做到數據庫與緩存絕對的一致性

其實,這是由 CAP 理論決定的。緩存系統適用的場景就是非強一致性的場景,它屬於 CAP 中的 AP。個人覺得,追求絕對一致性的業務場景,不適合引入緩存

CAP 理論,指的是在一個分佈式系統中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分區容錯性),三者不可得兼。

但是,通過一些方案優化處理,是可以保證弱一致性,最終一致性的。

3 種方案保證數據庫與緩存的一致性

緩存延時雙刪

有些小夥伴可能會說,並不一定要先操作數據庫呀,採用緩存延時雙刪策略,就可以保證數據的一致性啦。什麼是延時雙刪呢?

延時雙刪流程

  1. 先刪除緩存

  2. 再更新數據庫

  3. 休眠一會(比如 1 秒),再次刪除緩存。

這個休眠一會,一般多久呢?都是 1 秒?

這個休眠時間 =  讀業務邏輯數據的耗時 + 幾百毫秒。爲了確保讀請求結束,寫請求可以刪除讀請求可能帶來的緩存髒數據。

這種方案還算可以,只有休眠那一會(比如就那 1 秒),可能有髒數據,一般業務也會接受的。但是如果第二次刪除緩存失敗呢?緩存和數據庫的數據還是可能不一致,對吧?給 Key 設置一個自然的 expire 過期時間,讓它自動過期怎樣?那業務要接受過期時間內,數據的不一致咯?還是有其他更佳方案呢?

刪除緩存重試機制

不管是延時雙刪還是 Cache-Aside 的先操作數據庫再刪除緩存,都可能會存在第二步的刪除緩存失敗,導致的數據不一致問題。可以使用這個方案優化:刪除失敗就多刪除幾次呀, 保證刪除緩存成功就可以了呀~ 所以可以引入刪除緩存重試機制

刪除緩存重試流程

  1. 寫請求更新數據庫

  2. 緩存因爲某些原因,刪除失敗

  3. 把刪除失敗的 key 放到消息隊列

  4. 消費消息隊列的消息,獲取要刪除的 key

  5. 重試刪除緩存操作

讀取 biglog 異步刪除緩存

重試刪除緩存機制還可以吧,就是會造成好多業務代碼入侵。其實,還可以這樣優化:通過數據庫的 binlog 來異步淘汰 key

以 mysql 爲例吧

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/GEDsNLM1Yj-X4K1pE-1mTw