用戶畫像系統架構——從零開始搭建實時用戶畫像 -二-

在《什麼是用戶畫像》一文中,我們已經知道用戶畫像對於企業的巨大意義,當然也有着非常大實時難度。那麼在用戶畫像的系統架構中都有哪些難度和重點要考慮的問題呢?

挑戰

在整個數據的處理過程中我們還需要自動化的調度任務,免去我們重複的工作,實現系統的自動化運行,Airflow 就是一款非常不錯的調度工具,相比於老牌的 Azkaban 和 Oozie,基於 Python 的工作流 DAG,確保它可以很容易地進行維護,版本化和測試,當然最終提供的服務不僅僅是可視化的展示,還有實時數據的提供,最終形成用戶畫像的實時服務,形成產品化。

至此我們所面臨的問題都有了非常好的解決方案,下面我們設計出我們系統的整體架構,並分析我們需要掌握的技術與所需要的做的主要工作。

系統架構

依據上面的分析與我們要實現的功能,我們將依賴 Hive 和 Druid 建立我們的數據倉庫,使用 Kafka 進行數據的接入,使用 Flink 作爲我們的流處理引擎,對於標籤的元數據管理我們還是依賴 Mysql 作爲把標籤的管理,並使用 Airflow 作爲我們的調度任務框架,並最終將結果輸出到 Mysql 和 Hbase 中。對於標籤的前端管理,可視化等功能依賴 Springboot+Vue.js 搭建的前後端分離系統進行展示,而 Hive 和 Druid 的可視化查詢功能,我們也就使用強大的 Superset 整合進我們的系統中,最終系統的架構圖設計如下:

相對於傳統的技術架構,實時技術架構將極大的依賴於 Flink 的實時計算能力,當然大部分的聚合運算我們還是可以通過 Sql 搞定,但是複雜的機器學習運算需要依賴編碼實現。而標籤的存儲細節還是放在 Mysql 中,Hive 與 Druid 共同建立起數據倉庫。相對於原來的技術架構,只是將計算引擎由 Spark 換成了 Flink,當然可以選擇 Spark 的 structured streaming 同樣可以完成我們的需求,兩者的取捨還是依照具體情況來做分析。

傳統架構如下:

這樣我們就形成,數據存儲,計算,服務,管控的強有力的支撐,我們是否可以開始搭建大數據集羣了呢?其實還不着急,在開工之前,需求的明確是無比重要的,針對不同的業務,電商,風控,還是其他行業都有着不同的需求,對於用戶畫像的要求也不同,那麼該如何明確這些需求呢,最重要的就是定義好用戶畫像的標籤體系,這是涉及技術人員,產品,運營等崗位共同討論的結果,也是用戶畫像的核心所在,下一篇,我們將討論用戶畫像的標籤體系。未完待續~

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/V6DLlfnqMeJdnxJvbp_xeQ