知網都搜不到的知識:湖倉一體
目錄
0. 沃爾瑪紙尿褲和啤酒
1. 什麼是數據倉庫、數據集市和數據湖?
1.1 數據倉庫
1.2 數據集市
1.3 數據湖
2. 湖倉一體化爲什麼誕生?
2.1 打通數據的存儲與計算
2.2 靈活性與成長性兼得
3. 湖倉一體化是什麼?
4. 湖倉一體化的好處是什麼?
沃爾瑪紙尿褲和啤酒
在瞭解湖倉一體化之前,我們先來看一則有關數據倉庫的有趣故事吧~
沃爾瑪擁有世界上最大的數據倉庫系統,它利用數據挖掘方法對交易數據進行分析後發現 " 跟尿布一起購買最多的商品竟是啤酒!後來經過大量實際調查和分析,發現在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有 30%~40% 的人同時也爲自己買一些啤酒,這是因爲美國的太太們常叮囑她們的丈夫下班後爲小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。可見大數據其實很早之前就已經伴隨在我們的日常生活之中了。
那麼接下來我們就來了解一下湖倉一體化的基本概念吧。
什麼是數據倉庫、數據集市和數據湖?
1.1 數據倉庫
早期系統採用數據庫來存放管理數據,但是隨着大數據技術的興起,大家想要通過大數據技術來找到數據之間可能存在的關係,所以大家設計了一套新的數據存儲管理系統,把所有的數據全部存儲到數據倉庫,然後統一對數據處理,這個系統叫做數據倉庫。而數據庫缺少靈活和強大的處理能力。
在計算機領域,數據倉庫(英語:data warehouse,也稱爲企業數據倉庫)是用於報告和數據分析的系統,被認爲是商業智能的核心組件。數據倉庫是來自一個或多個不同源的集成數據的中央存儲庫。數據倉庫將當前和歷史數據存儲在一起,以利各種分析方法如在線分析處理 (OLAP)、數據挖掘 (Data Mining),幫助決策者能快速從大量數據中,分析出有價值的信息,幫助建構商業智能 (BI)。
儘管倉庫非常適合結構化數據,但是許多現代企業必須處理非結構化數據,半結構化數據以及具有高多樣性、高速度和高容量的數據。數據倉庫不適用於許多此類場景,並且成本效益並非最佳。
1.2 數據集市
每個部門自身也有對業務數據進行處理分析統計的需求,但不涉及到和其他數據,不希望在數據量大的數據倉庫進行操作(因爲操作慢,而且可能影響到其他人處理數據),所以建立一個新的存儲系統,把數據倉庫裏關聯自己的數據存儲到這個系統,本質上算是數據倉庫的一個子集。這個系統叫做數據集市。
例如公司裏的某一個部門想對投資者服務數據進行分析,於是他們建立一個投資者服務數據的數據集市,其中數據從數據倉庫中抽取:
1.3 數據湖
隨着當前大量信息化發展和電子設備產品普及,產生大量的照片、視頻、文檔等非結構化數據,人們也想通過大數據技術找到這些數據的關係,所以設計了一個比數據倉庫還要大的系統,可以把非結構化和結構化數據共同存儲和做一些處理,這個系統叫做數據湖。
數據倉庫的成長性很好,而數據湖更靈活。數據倉庫支持的數據結構種類比較單一,數據湖的種類比較豐富,可以包羅萬象。數據倉庫更加適合成熟的數據當中的分析和處理,數據湖更加適合在異構數據上的價值的挖掘。
數據湖雖然適合存儲數據,但缺少一些關鍵功能:它們不支持事務處理,不保證數據質量,並且缺乏一致性 / 隔離性,從而幾乎無法實現混合追加和讀取數據,以及完成批處理和流式作業。由於這些原因,數據湖的許多功能尚未實現,並且在很多時候喪失了數據湖的優勢。
湖倉一體化爲什麼誕生?
2.1 打通數據的存儲與計算
很多公司對各類數據應用包括 SQL 分析、實時監控、數據科學和機器學習的靈活性、高性能系統的需求並未減少。AI 的大部分最新進展是基於更好地處理非結構化數據(如 text、images、video、audio )的模型,完全純數據倉庫的二維關係表已經無法承接半 / 非結構化數據的處理,AI 引擎不可能只跑在純數據倉庫模型上。一種常見的解決方案是結合數據湖和數據倉庫優勢,建立湖倉一體化,進而解決了數據湖的侷限性:直接在用於數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。
之前的微博基於大數據的需求發展了數據倉庫平臺,基於 AI 的需求,發展了數據湖平臺,這兩套大數據平臺在集羣層面完全是割裂的,數據和計算無法在兩個平臺間自由流動。而使用湖倉一體,就能實現數據湖和數倉之間的無縫流轉,打通了數據存儲和計算的不同的層面。
2.2 靈活性與成長性兼得
通過上面這張圖,可知靈活性和成長性,對於處於不同時期的企業來說,重要性不同。
1、當企業處於初創階段,數據從產生到消費還需要一個創新探索的階段才能逐漸沉澱下來,那麼用於支撐這類業務的大數據系統,靈活性就更加重要,數據湖的架構更適用。
2、當企業逐漸成熟起來,已經沉澱爲一系列數據處理流程,問題開始轉化爲數據規模不斷增長,處理數據的成本不斷增加,參與數據流程的人員、部門不斷增多,那麼用於支撐這類業務的大數據系統,成長性的好壞就決定了業務能夠發展多遠。數據倉庫的架構更適用。
經過對數據湖和數據倉庫的深入闡述和比較,可以發現:數據湖和數據倉庫一個面向初創用戶友好,一個成長性更佳。對企業來說,數據湖和數據倉庫是否必須是一個二選一的選擇題?是否能有一種方案同時兼顧數據湖的靈活性和雲數據倉庫的成長性,將二者有效結合起來爲用戶實現更低的總體擁有成本?那麼湖倉一體化就是答案!
湖倉一體化是什麼?
隨着當前大數據技術應用趨勢,企業對單一的數據湖和數倉架構並不滿意。越來越多的企業開始融合數據湖和數據倉庫的平臺,不僅可以實現數據倉庫的功能,同時還實現了不同類型數據的處理功能、數據科學、用於發現新模型的高級功能。
湖倉一體是一種新型開放式架構,將數據湖和數據倉庫的優勢充分結合,它構建在數據湖低成本的數據存儲架構之上,又繼承了數據倉庫的數據處理和管理功能,打通數據湖和數據倉庫兩套體系,讓數據和計算在湖和倉之間自由流動。作爲新一代大數據技術架構,將逐漸取代單一數據湖和數據倉庫架構。
有人把 “湖倉一體” 做了形象的比喻,就好像湖邊搭建了很多小房子,有的可以負責數據分析,有的來運轉機器學習,有的來檢索音視頻等等,而這些數據源流,都可以從數據湖裏輕鬆取得。
湖倉一體化的好處是什麼?
湖倉一體能發揮出數據湖的靈活性與生態豐富性,以及數據倉庫的成長性與企業級能力。幫助企業建立數據資產、實現數據業務化、進而推進全線業務智能化,實現數據驅動下的企業數據智能創新,全面支撐企業未來大規模業務智能落地。其主要優勢主要有以下幾個方面:
• 數據重複性:如果一個組織同時維護了一個數據湖和多個數據倉庫,這無疑會帶來數據冗餘。在最好的情況下,這僅僅只會帶來數據處理的不高效,但是在最差的情況下,它會導致數據不一致的情況出現。湖倉一體的結合,能夠去除數據的重複性,真正做到了唯一。
• 高存儲成本:數據倉庫和數據湖都是爲了降低數據存儲的成本。數據倉庫往往是通過降低冗餘,以及整合異構的數據源來做到降低成本。而數據湖則往往使用大數據文件系統和 Spark 在廉價的硬件上存儲計算數據。湖倉一體架構的目標就是結合這些技術來最大力度降低成本。
• 報表和分析應用之間的差異:數據科學傾向於與數據湖打交道,使用各種分析技術來處理未經加工的數據。而報表分析師們則傾向於使用整合後的數據,比如數據倉庫或是數據集市。而在一個組織內,往往這兩個團隊之間沒有太多的交集,但實際上他們之間的工作又有一定的重複和矛盾。而當使用湖倉一體架構後,兩個團隊可以在同一數據架構上進行工作,避免不必要的重複。
• 數據停滯:在數據湖中,數據停滯是一個最爲嚴重的問題,如果數據一直無人治理,那將很快變爲數據沼澤。我們往往輕易的將數據丟入湖中,但缺乏有效的治理,長此以往,數據的時效性變得越來越難追溯。湖倉一體的引入,對於海量數據進行治理,能夠更有效地幫助提升分析數據的時效性。
• 潛在不兼容性帶來的風險:數據分析仍是一門興起的技術,新的工具和技術每年仍在不停地出現中。一些技術可能只和數據湖兼容,而另一些則又可能只和數據倉庫兼容。湖倉一體的架構意味着爲兩方面做準備。
Lakehouse 是一種新的數據管理體系結構,在機器學習覆蓋各行各業的時代,它可以從根本上簡化企業數據基礎架構並加速創新。過去,公司產品或決策中涉及的大多數數據都是來自操作系統的結構化數據。而如今,許多產品都以計算機視覺和語音模型,文本挖掘等形式集成了 AI。爲什麼要使用 Lakehouse 而不是數據湖來進行 AI?Lakehouse 可爲您提供數據版本控制、治理、安全性和 ACID 屬性,即使對於非結構化數據也是如此。
來源:
https://blog.csdn.net/qq_54151955/article/details/122590551?utm_medium=distribute.pc_feed_blog_category.none-task-blog-classify_tag-2.nonecasedepth_1-utm_source=distribute.pc_feed_blog_category.none-task-blog-classify_tag-2.nonecase
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/vNuZ3uGD3YthHtTDQ3Y57A