總線級數據中心網絡技術

據 Hyperion Research 公司按照系統驗收的時間估算,2021 至 2026 年期間,全球將建成 28~38 臺 E 級或接近 E 級的超級計算機。本文參考自 “總線級數據中心網絡技術白皮書”。

在原先傳統數據中心內,計算存儲性能未提升前,端到端的時延主要在端側,即計算和存儲所消耗的時延佔比較大,而當計算存儲器件性能大幅提升後,網絡成爲了數據中心內端到端的性能瓶頸。下圖顯示了計算存儲性能提升前後,端到端時延的佔比變化。

**RDMA 技術實現業務加速但制式種類繁多 **

存儲和計算性能提升後,數據中心內二者的訪問時延已經從 10ms 優化達到了 20us 的水平量級,相比原來有了近千倍的提升。而此時,如若仍舊採用基於 TCP 協議的網絡傳輸機制,由於 TCP 的丟包重傳機制,其網絡時延仍舊維持在 ms 級水平,無法滿足高性能計算存儲對於時延的要求。此時,RDMA 技術的出現,爲網絡性能的提升提供了新的技術思路。

RDMA 是一種概念,在兩個或者多個計算機進行通訊的時候使用 DMA, 從一個主機的內存直接訪問另一個主機的內存。傳統的 TCP/IP 技術在數據包處理過程中,要經過操作系統及其他軟件層,需要佔用大量的服務器資源和內存總線帶寬,數據在系統內存、處理器緩存和網絡控制器緩存之間來回進行復制移動,給服務器的 CPU 和內存造成了沉重負擔。尤其是網絡帶寬、處理器速度與內存帶寬三者的嚴重 “不匹配性”,更加劇了網絡延遲效應。

RDMA 是一種新的直接內存訪問技術,RDMA 讓計算機可以直接存取其他計算機的內存,而不需要經過處理器的處理。RDMA 將數據從一個系統快速移動到遠程系統的內存中,而不對操作系統造成任何影響。

在實現上,RDMA 實際上是一種智能網卡與軟件架構充分優化的遠端內存直接高速訪問技術,通過將 RDMA 協議固化於硬件 (即網卡) 上,以及支持 Zero-copy 和 Kernel bypass 這兩種途徑來達到其高性能的遠程直接數據存取的目標。下圖爲 RDMA 工作的原理圖,其通信過程使得用戶在使用 RDMA 時具備如下優勢:

目前,RDMA 技術在超算、AI 訓練、存儲等多個高性能場景大量部署,已形成廣泛應用。但是 RDMA 技術路線也有很多,用戶及各家廠商對於 RDMA 技術路線的選擇也不盡相同。

在三種主流的 RDMA 技術中,可以劃分爲兩大陣營。一個是 IB 技術, 另一個是支持 RDMA 的以太網技術 (RoCE 和 iWARP)。其中,IBTA 主要聚焦 IB 和 RoCE 技術,而 iWARP 則是在 IEEE/IETF 標準化的技術。在存儲領域,支持 RDMA 的技術早就存在,比如 SRP(SCSI RDMA Protocol) 和 iSER(iSCSI Extensions for RDMA)。如今興起的 NVMe over Fabrics 如果使用的不是 FC 網絡的話,本質上就是 NVMe over RDMA。換句話說,NVMe over InfiniBand, NVMe over RoCE 和 NVMe over iWARP 都是 NVMe over RDMA。

**RoCE 成爲主流但仍難以滿足業務需求 **

以太網自面世以來,其生態開放多元、速率高速增長、成本優勢明顯,因此業界應用十分廣泛。在 RDMA 的多種技術路線中,RoCE 技術的應用最爲廣泛。在全球著名高性能計算榜單 Top500 中,以太互聯技術佔比超過一半。

然而受限於傳統以太網絡的性能瓶頸,一般的 RoCE 應用在高性能業務中,仍然存在擁塞丟包、延遲抖動等性能損失,難以滿足高性能計算和存儲的需求。

在高性能存儲集羣中,FC 網絡具備連接保持技術,網絡升級 & 進程故障業務不感知,同時 FC 協議長幀頭具備傳輸功能保障,協議開銷小,網絡無丟包,數據幀按序傳送,網絡可靠、時延低。相比 FC,傳統以太網容易出現擁塞丟包現象,丟包重傳容易產生數據亂序,網絡抖動較大,並且以太網採用的存儲轉發模式,查找流程較爲複雜導致轉發時延較高,多打一場景會導致隊列積壓加劇,隊列時延不可忽視。在 HPC 應用中,傳統以太消息封裝能力較弱,查表流程複雜導致轉發時延較高,網絡的傳輸損失會造成處理器空閒等待數據,進而拖累整體並行計算性能,根據 2017 年 ODCC 組織的測試結果,傳統以太和專網相比,在超算集羣應用下,性能最高相差 30%。

總線級數據中心網絡 DCN 全以太超融合發展

高性能計算在金融、證券、教育、工業、航天、氣象等行業廣泛應用,而時延是關鍵性能指標之一。由於以太網丟包、傳輸轉發機制等諸多原因,基於傳統以太的數據中心網絡時延大多處於毫秒級水平,無法支撐高性能計算業務。要使得 DC as a Computer 成爲可能,數據中心網絡時延需要向總線級看齊。

**總線級數據中心網絡內涵 **

傳統以太時延較高,無法滿足以高性能計算的性能要求。更爲嚴峻的是,當前我國高性能存儲和高性能計算所採用的高端網絡互聯設備,均被國外廠商壟斷,價格昂貴、專網設備互通性差,並存在關鍵供貨被卡脖子的風險。

由於以太網的丟包、傳輸、轉發等諸多原因,傳統的數據中心網絡時延大多處於 ms 級水平,無法支撐高性能計算業務。隨着高性能業務的飛速發展,計算設備已由原先以 CPU 爲代表的通用器件,轉而發展爲以 GPU 爲主的高性能器件,器件的性能大幅提升,這對以太網絡的性能提出了更高的要求。網絡時延由四部分組成:

**極低靜態轉發時延技術,轉發時延從 us 降至百 ns **

傳統的以太交換機在轉發層面,因需要考慮兼容性、支持衆多協議,導致轉發流程複雜,轉發時延較大。與此同時,以太查表算法複雜、查表時延大,導致整體轉發處理時延長。目前業界主流商用以太交換機的靜態轉發時延大約在 600ns-1us 左右。面向大數據存儲和高性能計算業務,若要以太網做到低時延,必須優化轉發流程,降低數據轉發時延。

總線級數據中心網絡技術提出了一種極簡低時延以太轉發機制,利用虛擬短地址,實現了快速線性錶轉發。基於虛擬地址路由轉發技術,解決了傳統二層環路和鏈路利用率的問題,同時保證了規模部署和擴展靈活性。

根據應用實測,目前低時延機制轉發機制能實現 30ns 以太芯片報文處理,實現 100ns 左右端到端單跳轉發靜態時延。該時延相比於業界主流歐美廠商的以太芯片轉發時延,提升了 6-10 倍。

**Bufferless 無阻塞流控技術,亞 us 級動態時延 **

網絡擁塞會引起數據包在網絡設備中排隊甚至導致隊列溢出而丟棄,是導致網絡高動態時延的主要原因。

總線級數據中心網絡技術創新提出了收發混合驅動的網絡擁塞控制機制。數據報文分爲無調度(Unscheduled)和有調度(Scheduled)兩類:無調度報文在端口級有限窗口控制下直接發送,快速啓動,保證高吞吐;有調度報文由接收端分配令牌報文(Token)後繼續發送,限制流量注入,提供(近似)零隊列,支撐更大的網絡規模。對兩類報文進行協同調度,進一步保證高吞吐低隊列。收發混合驅動的網絡擁塞控制機制實現了數據中心網絡高吞吐和近似零隊列,支撐大規模網絡動態實時無阻塞。

**DCI 長距無損技術動態時延,100KM 內長距無損 **

在高性能存儲業務使用環境中,數據中心交換機之間涉及到遠端設備之間的擁塞問題。傳統的鏈路層流控技術採用粗暴的 “停等” 機制,當下遊設備發現接收能力小於上游設備的發送能力時,會主動發 Pause 幀給上游設備,要求暫停流量的發送。若採用傳統的流控機制,數據中心網絡遠端設備之間的流控會導致極高時延,以 100km 舉例,100Gbps 傳輸速率爲例,基於傳統的 PFC 機制的設備間流控機制會產生將近 2ms 的時延,無法滿足高性能應用的性能要求。

針對這個問題,總線級數據中心網絡提出了 “點剎” 式長距互聯的流控機制。採用細粒度的週期性掃描方式進行流控;每個週期檢測入口 buffer 的變化速率,通過創新算法計算要求上游停止發送時間;構造反壓幀,發送給上游設備,包含了要求上游停止發送的時間。

**網絡新拓撲架構路由技術,大規模組網實現跳數下降 20% **

針對高性能計算場景,數據中心的流量特徵關注靜態時延,需要支持超大規模,傳統的 CLOS 架構作爲主流的網絡架構,其主要關注通用性,但是犧牲了時延和性價比。業界針對該問題開展了多樣的架構研究和新拓撲的設計。

當前數據中心網絡架構設計大多基於工程經驗,不同搭建方式之間難以選擇,缺乏理論指導,缺乏統一性設計語言。另外網絡拓撲性能指標繁多,不同指標之間相互制約,指標失衡很難避免。

**網算一體技術,減少入網次數提升通信效率 **

隨着分佈式集羣規模的增大,以及單節點算力的增長,分佈式集羣系統已經逐漸從計算約束轉換爲網絡通信約束。一方面,在過去 5 年,GPU 算力增長了近 90 倍,而網絡帶寬僅增長了 10 倍;另一方面,當前的集羣系統中,當 GPU 集羣達到一定規模以後,即使增加計算節點數,但由於分佈式集羣節點之間通信代價的增加,仍可能導致集羣每秒訓練的圖片數量不增反減。

總結與展望

數據中心集合了極其豐富的軟硬件資源,從芯片到服務器,從存儲設備到網絡設施,從平臺軟件到應用軟件,不一而足。要構建強大算力,各類資源需要高度協同,深度融合。超融合正在成爲下一代數據中心網絡架構的內涵與精髓,政府、金融、運營商、互聯網等行業存在巨大的融合需求。

可以預見,未來超融合數據中心網絡與垂直行業的結合將會更加緊密。在這個長期的探索過程中,超融合數據中心網絡邁出了堅實的一步。基於總線級數據中心網絡技術的超融合數據中心打破了異構協議間的屏障,提升數據跨資源的流通和處理效率,提高算力能效比。在全國一體化大數據中心建設的今天,必將爲數據中心新基建的發展提供網絡性能的堅實保障。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/YAQ8-ve4AYZsTATzJzXNJA