淺談分佈式系統中的補償機制設計問題

我們知道,應用系統在分佈式的情況下,在通信時會有着一個顯著的問題,即一個業務流程往往需要組合一組服務,且單單一次通信可能會經過 DNS 服務,網卡、交換機、路由器、負載均衡等設備,而這些服務於設備都不一定是一直穩定的,在數據傳輸的整個過程中,只要任意一個環節出錯,都會導致問題的產生。

這樣的事情在微服務下就更爲明顯了,因爲業務需要在一致性上的保證。也就是說,如果一個步驟失敗了,要麼不斷重試保證所有的步驟都成功,要麼回滾到以前的服務調用。

因此我們可以對業務補償的過程進行一個定義,即當某個操作發生了異常時,如何通過內部機制將這個異常產生的「不一致」狀態消除掉。

一、關於業務補償機制

1、什麼是業務補償

我們知道,應用系統在分佈式的情況下,在通信時會有着一個顯著的問題,即一個業務流程往往需要組合一組服務,且單單一次通信可能會經過 DNS 服務,網卡、交換機、路由器、負載均衡等設備,而這些服務於設備都不一定是一直穩定的,在數據傳輸的整個過程中,只要任意一個環節出錯,都會導致問題的產生。

這樣的事情在微服務下就更爲明顯了,因爲業務需要在一致性上的保證。也就是說,如果一個步驟失敗了,要麼不斷重試保證所有的步驟都成功,要麼回滾到以前的服務調用。

因此我們可以對業務補償的過程進行一個定義,即當某個操作發生了異常時,如何通過內部機制將這個異常產生的「不一致」狀態消除掉。

2、業務補償設計的實現方式

業務補償設計的實現方式主要可分爲兩種:

一般來說,業務的事務補償都是需要一個工作流引擎的。這個工作流引擎把各式各樣的服務給串聯在一起,並在工作流上做相應的業務補償,整個過程設計成爲最終一致性的。

Ps:因爲「補償」已經是一個額外流程了,既然能夠走這個額外流程,說明時效性並不是第一考慮的因素。所以做補償的核心要點是:寧可慢,不可錯。

二、關於回滾

“回滾” 是指當程序或數據出錯時,將程序或數據恢復到最近的一個正確版本的行爲。在分佈式業務補償設計到的回滾則是通過事務補償的方式,回到服務調用以前的狀態。

1、顯示回滾

回滾一般可分爲 2 種模式:

最常見的就是「顯式回滾」。這個方案無非就是做 2 個事情:

2、回滾的實現方式

對於跨庫的事務,比較常見的解決方案有:兩階段提交、三階段提交(ACID)但是這 2 種方式,在高可用的架構中一般都不可取,因爲跨庫鎖表會消耗很大的性能。

高可用的架構中一般不會要求強一致性,只要達到最終的一致性就可以了。可以考慮:事務表、消息隊列、補償機制、TCC 模式(佔位 / 確認或取消)、Sagas 模式(拆分事務 + 補償機制)來實現最終的一致性。

三、關於重試

“重試” 的語義是我們認爲這個故障是暫時的,而不是永久的,所以,我們會去重試。這個操作最大的好處就是不需要提供額外的逆向接口。這對於代碼的維護和長期開發的成本有優勢,而且業務是變化的。逆向接口也需要變化。所以更多時候可以考慮重試。

1、重試的使用場景

相較於回滾,重試使用的場景要少一些:下游系統返回請求超時,被限流中等臨時狀態的時候,我們就可以考慮重試了。而如果是返回餘額不足,無權限的明確業務錯誤,就不需要重試。一些中間件或者 RPC 框架,返回 503,404 這種沒有預期恢復時間的錯誤,也不需要重試了。

2、重試策略

重試的時間和重試的次數。這種在不同的情況下要有不同的考量,主流的重試策略主要是以下幾種:

策略 1 - 立即重試:有時候故障是暫時性的,可能因爲網絡數據包衝突或者硬件組件高峯流量等事件造成的,在這種情況下,適合立即重試的操作。不過立即重試的操作不應該超過一次,如果立即重試失敗,應該改用其他策略;

策略 2 - 固定間隔:這個很好理解,比如每隔 5 分鐘重試一次。PS:策略 1 和策略 2 多用於前端系統的交互操作中;

策略 3 - 增量間隔:每一次的重試間隔時間增量遞增。比如,第一次 0 秒、第二次 5 秒、第三次 10 秒這樣,使得失敗次數越多的重試請求優先級排到越後面,給新進入的重試請求讓路;

return (retryCount - 1) * incrementInterval;

策略 4 - 指數間隔: 每一次的重試間隔呈指數級增加。和增量間隔一樣,都是想讓失敗次數越多的重試請求優先級排到越後面,只不過這個方案的增長幅度更大一些;

return 2 ^ retryCount;

策略 5 - 全抖動: 在遞增的基礎上,增加隨機性(可以把其中的指數增長部分替換成增量增長。)適用於將某一時刻集中產生的大量重試請求進行壓力分散的場景;

return random(0 , 2 ^ retryCount);

策略 6 - 等抖動: 在「指數間隔」和「全抖動」之間尋求一箇中庸的方案,降低隨機性的作用。適用場景和「全抖動」一樣。

int baseNum = 2 ^ retryCount;
return baseNum + random(0 , baseNum);

策略 - 3、4、5、6 的表現情況大致是這樣(x 軸爲重試次數):

3、重試時的注意事項

首先對於需要重試的接口,是需要做成冪等性的,即不能因爲服務的多次調用而導致業務數據的累計增加或減少。

滿足「冪等性」其實就是需要想辦法識別重複的請求,並且將其過濾掉。思路就是:

Ps:此外重試特別適合在高負載情況下被降級,當然也應當受到限流和熔斷機制的影響。當重試的 “矛” 與限流和熔斷的 “盾” 搭配使用,效果纔是最好。

四、業務補償機制的注意事項

1、ACID 還是 BASE

ACID 和 BASE 是分佈式系統中兩種不同級別的一致性理論,在分佈式系統中,ACID 有更強的一致性,但可伸縮性非常差,僅在必要時使用;BASE 的一致性較弱,但有很好的可伸縮性,還可以異步批量處理;大多數分佈式事務適合 BASE。

而在重試或回滾的場景下,我們一般不會要求強一致性,只要保證最終一致性就可以了!

2、業務補償設計的注意事項

業務補償設計的注意事項:

作者:慄箏 i

來源:lizhengi.blog.csdn.net/article/details/129369229

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/SiyLGGjQPKYKKBvP5JjpDg