大數據治理——搭建大數據探索平臺

在數據治理中,數據探索服務的價值在初期往往是被忽視的,但是隨着業務的增加,分析人員的增加,數據探索服務的價值就會越來越大。

一個成功的數據管理平臺,不僅僅要提供各種數據分析的工具,提供各種各樣的數據源,更要提供數據探索的能力。

爲什麼數據探索服務很重要?

想象一下,作爲一名數據科學家,他剛剛獲得新的任務是建立一個機器學習模型對業務問題進行分析。處理數據的人的第一個本能是尋找任何有意義的信息,能對其分析過程提供幫助。在這個過程中通常會出現以下問題:

  1. 我可以 / 應該使用哪種數據?

  2. 在哪裏可以找到數據?

  3. 我應該問誰申請數據訪問權限?

  4. 我可以信任我們擁有的數據嗎?

  5. 我們擁有的數據的實時性和質量如何?

  6. 還有誰在使用這些數據?

沒有數據探索服務的世界

數據科學家最多將三分之一的時間用於數據探索。

如果沒有數據探索服務,數據科學家需要和同事溝通,瀏覽他們可以訪問的對象進行搜索。然後做出一些假設,來驗證他們的選擇是否正確。

這個過程其實非常的耗時,因爲沒有合適的工具幫忙。必須要不斷的去尋找可靠的數據。但是隨着數據量增大,數據平臺使用者的增加,數據分析需求的增加,元數據的數量也在增加。這個過程就爲尋找的過程帶來了非常大的挑戰。

數據科學家用來查找與他們的需求相關的數據的方式可能很快會適得其反,變得不可靠,從而導致很多挫敗感,不確定性和創造力下降。

數據探索服務

數據探索服務意味着向用戶提供一種工具,使其可以瞭解平臺中的數據及其質量。讓我們來了解下具體的實現。

Amundsen

Apache Atlas

Atlas 作爲大數據元數據管理平臺,可以捕獲平臺上的各種組件的元數據信息。稱爲鉤子,比如可從 Kafka,Hive,Hbase 中收集元數據。有着安全性和豐富的 Rest Api。

Atlas 依賴於 Hbase 和 Solr 作爲分佈式的數據存儲,從而實現了元數據的存儲和搜索功能。通過這種方式,可以建立一個全面的元數據目錄。

Apache Atlas 架構

在實際的應用中,通過兩者的結合,可以完全的滿足我們的需求。

這樣數據科學家就可以在 Amundsen 中,尋找到目標數據了。

但搜索顯然只是第一步,在找到搜索結果後,可以進入表詳細信息頁面。

可以查看諸如描述、更新時間、常用用戶之類的信息。而且這些元數據信息都是實時更新的。

相信開源的力量,在 Amundsen+Atlas 的體系下,不斷探索適合自己的實現方案。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/skiSVEOZhqM5whYlrD9qnw