容災技術方案

作者:Bogon
鏈接:https://www.jianshu.com/p/8fd815227ab2

一、容災模式

當前市場上常見的容災模式可分爲:同城容災異地容災雙活數據中心兩地三中心幾種。

1、同城容災

同城 容災 是在同城或相近區域內 ( ≤ 200K M )建立兩個數據中心 : 一個爲數據中心,負責日常生產運行 ; 另一個爲災難備份中心,負責在災難發生後的應用系統運行。同城災難備份的數據中心與災難備份中心的距離比較近,通信線路質量較好,比較容易實現數據的同步 複製 ,保證高度的數據完整性和數據零丟失。同城災難備份一般用於防範火災、建築物破壞、供電故障、計算機系統及人爲破壞引起的災難。

2、異地容災

異地 容災 主備中心之間的距離較遠 (> 200KM ) , 因此一般採用異步鏡像,會有少量的數據丟失。異地災難備份不僅可以防範火災、建築物破壞等可能遇到的風險隱患,還能夠防範戰爭、地震、水災等風險。由於同城災難備份和異地災難備份各有所長,爲達到最理想的防災效果,數據中心應考慮採用同城和異地各建立一個災難備份中心的方式解決。

本地容災是指在本地機房建立容災系統,日常情況下可同時分擔業務及管理系統的運行,並可切換運行;災難情況下可在基本不丟失數據的情況下進行災備應急切換,保持業務連續運行。與異地災備模式相比較,本地雙中心具有投資成本低、建設速度快、運維管理相對簡單、可靠性更高等優點;異地災備中心是指在異地建立一個備份的災備中心,用於雙中心的數據備份,當雙中心出現自然災害等原因而發生故障時,異地災備中心可以用備份數據進行業務的恢復。

本地機房的容災主要是用於防範生產服務器發生的故障,異地災備中心用於防範大規模區域性災難。本地機房的容災由於其與生產中心處於同一個機房,可通過局域網進行連接,因此數據複製和應用切換比較容易實現,可實現生產與災備服務器之間數據的實時複製和應用的快速切換。異地災備中心由於其與生產中心不在同一機房,災備端與生產端連接的網絡線路帶寬和質量存在一定的限制,應用系統的切換也需要一定的時間,因此異地災備中心可以實現在業務限定的時間內進行恢復和可容忍丟失範圍內的數據恢復。

3、兩地三中心

結合近年國內出現的大範圍自然災害,以同城雙中心加異地災備中心的 “兩地三中心” 的災備模式也隨之出現,這一方案兼具高可用性和災難備份的能力。

同城雙中心是指在同城或鄰近城市建立兩個可獨立承擔關鍵系統運行的數據中心,雙中心具備基本等同的業務處理能力並通過高速鏈路實時同步數據,日常情況下可同時分擔業務及管理系統的運行,並可切換運行;災難情況下可在基本不丟失數據的情況下進行災備應急切換,保持業務連續運行。與異地災備模式相比較,同城雙中心具有投資成本低、建設速度快、運維管理相對簡單、可靠性更高等優點。

異地災備中心是指在異地的城市建立一個備份的災備中心,用於雙中心的數據備份,當雙中心出現自然災害等原因而發生故障時,異地災備中心可以用備份數據進行業務的恢復。

兩地三中心:是指同城雙中心異地災備 一種商用容災備份解決方案;

兩地是指同城、異地;

三中心是指生產中心同城容災中心異地容災中心。( 生產中心、同城災備中心、異地災備中心 )

4、雙活數據中心

所謂 “雙活” 或 “ 多 活 ” 數據中心,區別於 傳統 數據中心 和 災備中心的模式,前者 多個 或兩個數據中心都處於運行當中, 運行相同的應用,具備同樣的數據,能夠提供跨中心業務負載均衡運行能力,實現持續的應用可用性和災難備份能力, 所以稱爲 “雙活 ” 和 “ 多 活 ” ;後者是 生產 數據中心投入運行, 災備 數據中心處在不工作狀態,只有當災難發生時,生產數據中心癱瘓,災備中心才啓動。

“雙活” 數據中心最大的特點是 :

一、充分利用資源,避免了一個數據中心常年處於閒置狀態而造成浪費 , 通過資源整合, “雙活” 數據中心的服務能力是 翻 倍的 ;

二 、 “雙活” 數據中心如果斷了一個數據中心, 其 業務可以 迅速 切換到另外一個 正在 運行的數據中心, 切換 過程對用戶來說是不可感知的。

在 “雙活” 的模式中,兩地數據中心同時接納交易,技術難度很大,需要更改衆多底層程序 , 因而在現實中,國內還沒有 真正 “ 雙活 ” 數據中心 的成功應用案例。

二、數據容災技術選擇度量標準

容災系統是指在相隔較遠的異地,建立兩套或多套功能相同的 IT 系統,互相之間可以進行健康狀態監視和功能切換,當一處系統因意外 (如火災、地震等) 停止工作時,整個應用系統可以切換到另一處,使得該系統功能可以繼續正常工作。

容災技術是系統的高可用性技術的一個組成部分,容災系統更加強調處理外界環境對系統的影響,特別是災難性事件對整個 IT 節點的影響,提供節點級別的系統恢復功能。

在構建 容災 系統時,首先考慮的是結合實際情況選擇合理的數據複製技術。

在選擇合理的數據複製技術時主要考慮以下因素:

Ø 災難承受程度:明確計算機系統需要承受的災難類型,系統故障、通信故障、長時間斷電、火災及地震等各種意外情況所採取的備份、保護方案不盡相同。

Ø 業務影響程度:必須明確當計算機系統發生意外無法工作時,導致業務停頓所造成的損失程度,也就是定義用戶對於計算機系統發生故障的最大容忍時間,這是設計備份方案的重要技術指標。

Ø 數據保護程度:是否要求數據庫恢復所有提交的交易 , 並且要求實時同步 ,保證 數據的連續性和一致性, 這是 備份方案複雜程度的重要依據。

1. 容災系統衡量指標

衡量容災系統的主要指標有 RPO ( Recovery Point Object ,災難發生時允許丟失的數據量)、 RTO ( Recovery Time Objective ,系統恢復的時間)、容災半徑(生產系統和容災系統之間的距離)以及 ROI(Return of Investment ,容災系統的投入產出比) 。

RPO 是指業務系統所允許的災難過程中的最大數據丟失量(以時間來度量),這是一個災備系統所選用的數據複製技術有密切關係的指標,用以衡量災備方案的數據冗餘備份能力。

RTO 是指 “將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態,並將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態” 所需時間,其中包括備份數據恢復到可用狀態所需時間、應用系統切換時間、以及備用網絡切換時間等,該指標用以衡量容災方案的業務恢復能力。例如,災難發生後半天內便需要恢復,則 RTO 值就是十二小時。

容災半徑是指生產中心和災備中心之間的直線距離,用以衡量容災方案所能防禦的災難影響範圍。

容災方案的 ROI 也是用戶需要重點關注的,它用以衡量用戶投入到容災系統的資金與從中所獲得的收益的比率。

顯然,具有零 RTO 、零 RPO 和大容災半徑的災難恢復方案是用戶最期望的,但受系統性能要求、適用技術及成本等方面的約束,這種方案實際上是不大可行的。所以,用戶在選擇容災方案時應該綜合考慮災難的發生概率、災難對數據的破壞力、數據所支撐業務的重要性、適用的技術措施及自身所能承受的成本等多種因素,理性地作出選擇。

2. 容災級別

按照容災系統對應用系統的保護程度可以分爲: 數據級容災 、 應用級容災 和 業務級容災。

數據級容災 僅 將生產中心的數據複製到容災中心,在生產中心出現故障時,僅能實現 存儲 系統的接管或是數據的恢復 。容災 中心的數據可以是本地生產數據的完全複製( 一般 在同城實現) , 也可以比生產數據略微落後,但必定是可用的 (一般 在異地實現) , 而差異的數據 通常 可以通過一些工具( 如 操作記錄、日誌等) 可以 手工補回。基於數據容災 實現 業務恢復的速度 較慢 ,通常情況下 RTO 超過 24 小時, 但是這種 級別 的容災系統運行維護成本較低。

應用級容災是 在數據級容災的基礎上,進一步實現應用 可用性 ,確保業務的快速恢復。這就 要求 容災系統 的 應用不能改變原有業務處理邏輯,是對生產中心繫統的基本複製 。因此 ,容災中心需要建立起一套和本地生產相當的備份環境,包括主機、網絡、應用、 IP 等 資源均有配套,當 生產 系統發生災難時,異地系統可以 提供 完全可用的生產環境。應用級 容災的 RTO 通常 在 12 個 小時 以內 ,技術複雜度較高,運行維護的成本也比較高。

業務級容災 是生產中心 與容災中心對業務請求同時進行 處理 的容災方式,能夠確保 業務 持續可用。這種 方式 業務 恢復 過程的自動化程度高, RTO 可以 做到 30 分鐘 以內 。但是 這種容災級別 的 項目 實施難度大, 需要從 應用層對系統進行改造,比較適合流程固定 的 簡單業務系統 。這種 容災系統 的運行維護成本最高。

三、架構實踐

對 IT 企業來說,傳統的單數據中心,已不足以保護企業數據的安全。

當單數據中心存儲故障後,可能會導致業務長時間中斷,甚至數據丟失。

只做本地的數據冗餘保護或容災建設,已不能規避區域性災難對企業數據的破壞。遠程容災保護數據及保障企業業務連續性成爲了企業亟待解決的問題。

另外,企業在遠程容災建設中,也面臨網絡鏈路租賃費用高昂和網絡帶寬不夠的問題。

(1)華爲的 “基於華爲統一存儲多級跳複製技術的兩地三中心方案”

基於華爲統一存儲多級跳複製技術,並結合專業的容災管理軟件實現數據的兩地三中心保護。

該方案在生產中心、同城災備中心和異地災備中心分別部署華爲 OceanStor 統一存儲設備,通過異步遠程複製技術,將生產中的數據複製到同城災備中心,再到異地災備中心,實現數據的保護,方案原理組網如圖(1)所示。

若生產中心發生災難,可在同城災備中心實現業務切換,並保持與異地災備中心的容災關係;若生產中心和同城災備中心均發生災難,可在異地災備中心實現業務切換。

(2)中興通訊的 “基於雲計算 IaaS 和 PaaS 層面的雲計算技術,推出分佈式雙活數據中心”

中興的分佈式雙活數據中心的建設和部署架構如下圖所示,在同城建設兩個數據中心,同時爲外提供業務服務,同時在異地建設災備中心,用於數據的備份。

中興通訊分佈式雙活數據中心方案可以幫助客戶找到優化投資利用率、保證業務連續性的新思路。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/RnnPu60fWPswodV8KIz-4g