什麼是 HBase？終於有人講明白了

初識 HBase

HBase 是一個面向列式存儲的分佈式數據庫，其設計思想來源於 Google 的 BigTable 論文。HBase 底層存儲基於 HDFS 實現，集羣的管理基於 ZooKeeper 實現。HBase 良好的分佈式架構設計爲海量數據的快速存儲、隨機訪問提供了可能，基於數據副本機制和分區機制可以輕鬆實現在線擴容、縮容和數據容災，是大數據領域中 Key-Value 數據結構存儲最常用的數據庫方案。

HBase 特點

易擴展

Hbase 的擴展性主要體現在兩個方面，一個是基於運算能力（RegionServer）的擴展，通過增加 RegionSever 節點的數量，提升 Hbase 上層的處理能力；另一個是基於存儲能力的擴展（HDFS），通過增加 DataNode 節點數量對存儲層的進行擴容，提升 HBase 的數據存儲能力。

（拓展：圖文詳解 HDFS 的工作機制及其原理）

海量存儲

HBase 作爲一個開源的分佈式 Key-Value 數據庫，其主要作用是面向 PB 級別數據的實時入庫和快速隨機訪問。這主要源於上述易擴展的特點，使得 HBase 通過擴展來存儲海量的數據。

列式存儲

Hbase 是根據列族來存儲數據的。列族下面可以有非常多的列。列式存儲的最大好處就是，其數據在表中是按照某列存儲的，這樣在查詢只需要少數幾個字段時，能大大減少讀取的數據量。

高可靠性

WAL 機制保證了數據寫入時不會因集羣異常而導致寫入數據丟失，Replication 機制保證了在集羣出現嚴重的問題時，數據不會發生丟失或損壞。而且 Hbase 底層使用 HDFS，HDFS 本身也有備份。

稀疏性

在 HBase 的列族中，可以指定任意多的列，爲空的列不佔用存儲空間，表可以設計得非常稀疏。

模塊組成

HBase 可以將數據存儲在本地文件系統，也可以存儲在 HDFS 文件系統。在生產環境中，HBase 一般運行在 HDFS 上，以 HDFS 作爲基礎的存儲設施。HBase 通過 HBase Client 提供的 Java API 來訪問 HBase 數據庫，以完成數據的寫入和讀取。HBase 集羣主由 HMaster、Region Server 和 ZooKeeper 組成。

HMaster

負責管理 RegionServer，實現其負載均衡；
管理和分配 Region，比如在 Region split 時分配新的 Region，在 RegionServer 退出時遷移其內的 Region 到其他 RegionServer 上；
管理 namespace 和 table 的元數據（實際存儲在 HDFS 上）；
權限控制（ACL）。

RegionServer

存放和管理本地 Region；
讀寫 HDFS，管理 Table 中的數據；
Client 從 HMaster 中獲取元數據，找到 RowKey 所在的 RegionServer 進行讀寫數據。

ZooKeeper

存放整個 HBase 集羣的元數據以及集羣的狀態信息；
實現 HMaster 主從節點的 failover。

HBase 數據模型

HBase 是一個面向列式存儲的分佈式數據庫。HBase 的數據模型與 BigTable 十分相似。在 HBase 表中，一條數據擁有一個全局唯一的鍵 (RowKey) 和任意數量的列(Column)，一列或多列組成一個列族(Column Family)，同一個列族中列的數據在物理上都存儲在同一個 HFile 中，這樣基於列存儲的數據結構有利於數據緩存和查詢。HBase 中的表是疏鬆地存儲的，因此用戶可以動態地爲數據定義各種不同的列。HBase 中的數據按主鍵排序，同時，HBase 會將表按主鍵劃分爲多個 Region 存儲在不同 Region Server 上，以完成數據的分佈式存儲和讀取。

HBase 根據列成來存儲數據，一個列族對應物理存儲上的一個 HFile，列族包含多列列族在創建表的時候被指定。

Column Family

Column Family 即列族，HBase 基於列劃分數據的物理存儲，一個列族可以包含包意多列。

一般同一類的列會放在一個列族中，每個列族都有一組存儲屬性：

是否應該緩存在內存中；
數據如何被壓縮或行鍵如何編碼等。

HBase 在創建表的時候就必須指定列族。HBase 的列族不是越多越好，官方薦一個表的列族數量最好小於或者等於 3，過多的列族不利於 HBase 數據的管理和索引。

RowKey

RowKey 的概念與關係型數據庫中的主鍵相似，HBase 使用 RowKey 來唯一標識某行的數據。

訪問 HBase 數據的方式有三種:

基於 RowKey 的單行查詢；
基於 RowKey 的範圍查詢；
全表掃描查詢。

Region

HBase 將表中的數據基於 RowKey 的不同範圍劃分到不同 Region 上，每個 Region 都負責一定範圍的數據存儲和訪問。

每個表一開始只有一個 Region，隨着數據不斷插入表，Region 不斷增大，當增大到一個閥值的時候，Region 就會等分成兩個新的 Region。當 table 中的行不斷增多，就會有越來越多的 Region。

另外，Region 是 Hbase 中分佈式存儲和負載均衡的最小單元，不同的 Region 可以分佈在不同的 HRegion Server 上。但一個 Hregion 是不會拆分到多個 server 上的。

這樣即使有一個包括上百億條數據的表，由於數據被劃分到不同的 Region 上，每個 Region 都可以獨立地進行寫入和查詢，HBase 寫查詢時候可以於多 Region 分佈式併發操作，因此訪問速度也不會有太大的降低。

TimeStamp

TimeStamp 是實現 HBase 多版本的關鍵。在 HBase 中，使用不同 TimeStamp 來標識相同 RowKey 對應的不同版本的數據。相同 RowKey 的數據按照 TimeStamp 倒序排列。默認查詢的是最新的版本，當然用戶也可以指定 TimeStamp 的值來讀取指定版本的數據。

列式存儲會被廣泛用在 OLAP 中

不知是否有小夥伴們疑問，爲什麼列式存儲會廣泛地應用在 OLAP 領域，和行式存儲相比，它的優勢在哪裏？今天我們一起來對比下這兩種存儲方式的差別。

其實，列式存儲並不是一項新技術，最早可以追溯到 1983 年的論文 Cantor。然而，受限於早期的硬件條件和應用場景，傳統的事務型數據庫（OLTP）如 Oracle、MySQL 等關係型數據庫都是以行的方式來存儲數據的。

直到近幾年分析型數據庫（OLAP）的興起，列式存儲這一概念又變得流行，如 HBase、Cassandra 等大數據相關的數據庫都是以列的方式來存儲數據的。

行式存儲的原理與特點

對於 OLAP 場景，大多都是對一整行記錄進行增刪改查操作的，那麼行式存儲採用以行的行式在磁盤上存儲數據就是一個不錯的選擇。

當查詢基於需求字段查詢和返回結果時，由於這些字段都埋藏在各行數據中，就必須讀取每一條完整的行記錄，大量磁盤轉動尋址的操作使得讀取效率大大降低。

舉個例子，下圖爲員工信息 emp 表。

數據在磁盤上是以行的形式存儲在磁盤上，同一行的數據緊挨着存放在一起。

對於 emp 表，要查詢部門 dept 爲 A 的所有員工的名字。

select name from emp where dept = A

由於 dept 的值是離散地存儲在磁盤中，在查詢過程中，需要磁盤轉動多次，才能完成數據的定位和返回結果。

列式存儲的原理與特點

對於 OLAP 場景，一個典型的查詢需要遍歷整個表，進行分組、排序、聚合等操作，這樣一來行式存儲中把一整行記錄存放在一起的優勢就不復存在了。而且，分析型 SQL 常常不會用到所有的列，而僅僅對其中某些需要的的列做運算，那一行中無關的列也不得不參與掃描。

然而在列式存儲中，由於同一列的數據被緊挨着存放在了一起，如下圖所示。

那麼基於需求字段查詢和返回結果時，就不許對每一行數據進行掃描，按照列找到需要的數據，磁盤的轉動次數少，性能也會提高。

還是上面例子中的查詢，由於在列式存儲中 dept 的值是按照順序存儲在磁盤上的，因此磁盤只需要順序查詢和返回結果即可。

列式存儲不僅具有按需查詢來提高效率的優勢，由於同一列的數據屬於同一種類型，如數值類型，字符串類型等，相似度很高，還可以選擇使用合適的編碼壓縮可減少數據的存儲空間，進而減少 IO 提高讀取性能。

總的來說，行式存儲和列式存儲沒有說誰比誰更優越，只能說誰更適合哪種應用場景。

HBase 的架構組成

HBase 作爲 NoSQL 數據庫的代表，屬於三駕馬車之一 BigTable 的對應實現，HBase 的出現很好地彌補了大數據快速查詢能力的空缺。在前面咱們也有介紹過 HBase 的數據模型，感興趣的小夥伴可以翻看下。

HBase 的核心架構由五部分組成，分別是 HBase Client、HMaster、Region Server、ZooKeeper 以及 HDFS。它的架構組成如下圖所示。

下面我們對 HBase 架構組成的每一部分詳細介紹一下。

HBase Client

HBase Client 爲用戶提供了訪問 HBase 的接口，可以通過元數據表來定位到目標數據的 RegionServer，另外 HBase Client 還維護了對應的 cache 來加速 Hbase 的訪問，比如緩存元數據的信息。

HMaster

HMaster 是 HBase 集羣的主節點，負責整個集羣的管理工作，主要工作職責如下：

分配 Region：負責啓動的時候分配 Region 到具體的 RegionServer；
負載均衡：一方面負責將用戶的數據均衡地分佈在各個 Region Server 上，防止 Region Server 數據傾斜過載。另一方面負責將用戶的請求均衡地分佈在各個 Region Server 上，防止 Region Server 請求過熱；
維護數據：發現失效的 Region，並將失效的 Region 分配到正常的 RegionServer 上，並且在 Region Sever 失效的時候，協調對應的 HLog 進行任務的拆分。

Region Server

Region Server 直接對接用戶的讀寫請求，是真正的幹活的節點，主要工作職責如下。

管理 HMaster 爲其分配的 Region；
負責與底層的 HDFS 交互，存儲數據到 HDFS；
負責 Region 變大以後的拆分以及 StoreFile 的合併工作。

與 HMaster 的協同：當某個 RegionServer 宕機之後，ZK 會通知 Master 進行失效備援。下線的 RegionServer 所負責的 Region 暫時停止對外提供服務，Master 會將該 RegionServer 所負責的 Region 轉移到其他 RegionServer 上，並且會對所下線的 RegionServer 上存在 MemStore 中還未持久化到磁盤中的數據由 WAL 重播進行恢復。

下面給大家詳細介紹下 Region Serve 數據存儲的基本結構，如下圖所示。一個 Region Server 是包含多個 Region 的，這裏僅展示一個。

Region：每一個 Region 都有起始 RowKey 和結束 RowKey，代表了存儲的 Row 的範圍，保存着表中某段連續的數據。一開始每個表都只有一個 Region，隨着數據量不斷增加，當 Region 大小達到一個閥值時，Region 就會被 Regio Server 水平切分成兩個新的 Region。當 Region 很多時，HMaster 會將 Region 保存到其他 Region Server 上。
Store：一個 Region 由多個 Store 組成，每個 Store 都對應一個 Column Family, Store 包含 MemStore 和 StoreFile。
MemStore：作爲 HBase 的內存數據存儲，數據的寫操作會先寫到 MemStore 中，當 MemStore 中的數據增長到一個閾值（默認 64M）後，Region Server 會啓動 flasheatch 進程將 MemStore 中的數據寫人 StoreFile 持久化存儲，每次寫入後都形成一個單獨的 StoreFile。當客戶端檢索數據時，先在 MemStore 中查找，如果 MemStore 中不存在，則會在 StoreFile 中繼續查找。
StoreFile：MemStore 內存中的數據寫到文件後就是 StoreFile，StoreFile 底層是以 HFile 的格式保存。HBase 以 Store 的大小來判斷是否需要切分 Region。

當一個 Region 中所有 StoreFile 的大小和數量都增長到超過一個閾值時，HMaster 會把當前 Region 分割爲兩個，並分配到其他 Region Server 上，實現負載均衡。

HFile：HFile 和 StoreFile 是同一個文件，只不過站在 HDFS 的角度稱這個文件爲 HFile，站在 HBase 的角度就稱這個文件爲 StoreFile。
HLog：負責記錄着數據的操作日誌，當 HBase 出現故障時可以進行日誌重放、故障恢復。例如，磁盤掉電導致 MemStore 中的數據沒有持久化存儲到 StoreFile，這時就可以通過 HLog 日誌重放來恢復數據。

ZooKeeper

HBase 通過 ZooKeeper 來完成選舉 HMaster、監控 Region Server、維護元數據集羣配置等工作，主要工作職責如下：

選舉 HMaster：通 ooKeeper 來保證集中有 1HMaster 在運行，如果 HMaster 異常，則會通過選舉機制產生新的 HMaster 來提供服務；
監控 Region Server: 通過 ZooKeeper 來監控 Region Server 的狀態，當 Region Server 有異常的時候，通過回調的形式通知 HMaster 有關 Region Server 上下線的信息；
維護元數據和集羣配置：通過 ooKeeper 儲 B 信息並對外提供訪問接口。

HDFS

HDFS 爲 HBase 提供底層數據存儲服務，同時爲 HBase 提供高可用的支持， HBase 將 HLog 存儲在 HDFS 上，當服務器發生異常宕機時，可以重放 HLog 來恢復數據。

HBase 的寫入流程

瞭解下 HBase 是如何寫入數據的，然後再講解一下一個比較經典的面試題。

Region Server 尋址

HBase Client 訪問 ZooKeeper；
獲取寫入 Region 所在的位置，即獲取 hbase:meta 表位於哪個 Region Server；
訪問對應的 Region Server；
獲取 hbase:meta 表，並查詢出目標數據位於哪個 Region Server 中的哪個 Region 中。並將該 table 的 Region 信息以及 meta 表的位置信息緩存在客戶端的 meta cache，方便下次訪問；

寫 Hlog

HBase Client 向 Region Server 發送寫 Hlog 請求；
Region Server 會通過順序寫入磁盤的方式，將 Hlog 存儲在 HDFS 上；

寫 MemStore 並返回結果

HBase Client 向 Region Server 發送寫 MemStore 請求；
只有當寫 Hlog 和寫 MemStore 的請求都成功完成之後，並將反饋給 HBase Client，這時對於整個 HBase Client 寫入流程已經完成。

MemStore 刷盤

HBase 會根據 MemStore 配置的刷盤策略定時將數據刷新到 StoreFile 中，完成數據持久化存儲。

爲什麼要把 WAL 加載到 MemStore 中，再刷寫成 HFile 呢？

WAL (Write-Ahead-Log) 預寫日誌是 HBase 的 RegionServer 在處理數據插入和刪除過程中用來記錄操作內容的一種日誌。每次 Put、Delete 等一條記錄時，首先將其數據寫入到 RegionServer 對應的 HLog 文件中去。

而 WAL 是保存在 HDFS 上的持久化文件，數據到達 Region 時先寫入 WAL，然後被加載到 MemStore 中。這樣就算 Region 宕機了，操作沒來得及執行持久化，也可以再重啓的時候從 WAL 加載操作並執行。

那麼，我們從寫入流程中可以看出，數據進入 HFile 之前就已經被持久化到 WAL 了，而 WAL 就是在 HDFS 上的，MemStore 是在內存中的，增加 MemStore 並不能提高寫入性能，爲什麼還要從 WAL 加載到 MemStore 中，再刷寫成 HFile 呢？

數據需要順序寫入，但 HDFS 是不支持對數據進行修改的；
WAL 的持久化爲了保證數據的安全性，是無序的；
Memstore 在內存中維持數據按照 row key 順序排列，從而順序寫入磁盤；

所以 MemStore 的意義在於維持數據按照 RowKey 的字典序排列，而不是做一個緩存提高寫入效率。

HBase 的讀流程

下圖爲 HBase 的讀取數據流程。

Region Server 尋址

HBase Client 請求 ZooKeeper 獲取元數據表所在的 Region Server 的地址。

Region 尋址

HBase Client 請求 RegionServer 獲取需要訪問的元數據，查詢出目標數據位於哪個 Region Server 中的哪個 Region 中。並將該 table 的 region 信息以及 meta 表的位置信息緩存在客戶端的 meta cache，方便下次訪問。

數據讀取

HBase Client 請求數據所在的 Region Server，獲取所需要的數據。Region 首先在 MemStore 中查找，若命中則返回；如果在 MemStore 中找不到，則通過 BloomFilter 判斷數據是否存在；如果存在，則在: StoreFile 中掃描並將結果返回客戶端。

Data 跳動 專注於圖解各種技術棧，Kafka、Hadoop、Hive、Spark、Flink 等

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/kjsi8OR7YhR6gGd0n2HrBQ

初識 HBase

HBase 特點

易擴展

海量存儲

列式存儲

高可靠性

稀疏性

模塊組成

HMaster

RegionServer

ZooKeeper

HBase 數據模型

Column Family

RowKey

Region

TimeStamp

列式存儲會被廣泛用在 OLAP 中

行式存儲的原理與特點

列式存儲的原理與特點

HBase 的架構組成

HBase Client

HMaster

Region Server

ZooKeeper

HDFS

HBase 的寫入流程

Region Server 尋址

寫 Hlog

寫 MemStore 並返回結果

MemStore 刷盤

爲什麼要把 WAL 加載到 MemStore 中，再刷寫成 HFile 呢？

HBase 的讀流程

Region Server 尋址

Region 尋址

數據讀取

猜你喜歡