數據倉庫指標體系搭建實戰
指標體系
1. 痛點分析
主要從業務、技術、產品三個視角來看:
-
業務視角
業務分析場景指標、維度不明確;
頻繁的需求變更和反覆迭代,數據報表臃腫,數據參差不齊;
用戶分析具體業務問題找數據、覈對確認數據成本較高。
-
技術視角
指標定義,指標命名混亂,指標不唯一,指標維護口徑不一致;
指標生產,重複建設;數據彙算成本較高;
指標消費,數據出口不統一,重複輸出,輸出口徑不一致;
-
產品視角
缺乏系統產品化支持從生產到消費數據流沒有系統產品層面打通;
2. 管理目標
-
技術目標
統一指標和維度管理,指標命名、計算口徑、統計來源唯一, 維度定義規範、維度值一致
-
業務目標
統一數據出口、場景化覆蓋 -
產品目標
指標體系管理工具產品化落地;指標體系內容產品化落地支持決策、分析、運營例如決策北極星、智能運營分析產品等
3. 模型架構
業務線
業務板塊定義原則:業務邏輯層面進行抽象、物理組織架構層面進行細分,可根據實際業務情況進行層級分拆細化,層級分級建議進行最多進行三級分拆,一級細分可公司層面統一規範確定,二級及後續拆分可根據業務線實際業務進行拆分。
例如滴滴出行領域業務邏輯層面兩輪車和四輪車都屬於出行領域可抽象出行業務板塊 (level 一級),根據物理組織架構層面在進行細分普惠、網約車、出租車、順風車(level 二級),後續根據實際業務需求可在細分, 網約車可細分獨乘、合乘,普惠可細分單車、企業級。
規範定義
- 數據域
指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括爲一個個不拆分的行爲事件,在業務過程之下,可以定義指標;維度,是度量的環境,如乘客呼單事件,呼單類型是維度。爲了保障整個體系的生命力,數據域是需要抽象提煉,並且長期維護更新的,變動需執行變更流程。
- 業務過程
指公司的業務活動事件,如呼單、支付都是業務過程。其中,業務過程不可拆分。
- 時間週期
用來明確統計的時間範圍或者時間點,如最近 30 天、自然周、截止當日等。
- 修飾類型
是對修飾詞的一種抽象劃分。修飾類型從屬於某個業務域,如日誌域的訪問終端類型涵蓋 APP 端、PC 端等修飾詞。
- 修飾詞
指的是統計維度以外指標的業務場景限定抽象,修飾詞屬於一種修飾類型,如在日誌域的訪問終端類型下,有修飾詞 APP、PC 端等。
- 度量 / 原子指標
原子指標和度量含義相同,基於某一業務事件行爲下的度量,是業務定義中不可再拆分的指標**,**具有明確業務含義的名稱,如支付金額。
- 維度
維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱爲實體對象。維度屬於一個數據域,如地理維度(其中包括國家、地區、省市等)、時間維度(其中包括年、季、月、周、日等級別內容)。
- 維度屬性
維度屬性隸屬於一個維度,如地理維度裏面的國家名稱、國家 ID、省份名稱等都屬於維度屬性。
- 指標分類主要分爲原子指標、派生指標、衍生指標
-
原子指標
基於某一業務事件行爲下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如呼單量、交易金額 -
派生指標
是 1 個原子指標 + 多個修飾詞(可選)+ 時間週期,是原子指標業務統計範圍的圈定。派生指標又分以下二種類型: -
事務型指標:
是指對業務過程進行衡量的指標。例如,呼單量、訂單支付金額,這類指標需要維護原子指標以及修飾詞,在此基礎上創建派生指標。 -
存量型指標:
是指對實體對象(如司機、乘客)某些狀態的統計,例如註冊司機總數、註冊乘客總數,這類指標需要維護原子指標以及修飾詞,在此基礎上創建派生指標,對應的時間週期一般爲 “歷史截止當前某個時間”。
-
衍生指標
是在事務性指標和存量型指標的基礎上覆合成的。主要有比率型、比例型、統計型均值
模型設計
主要採用維度建模方法進行構建,基礎業務明細事實表主要存儲維度屬性集合和度量 / 原子指標;分析業務彙總事實表按照指標類別 (去重指標、非去重指標) 分類存儲,非去重指標彙總事實表存儲統計維度集合、原子指標或派生指標,去重指標彙總事實表只存儲分析實體統計標籤集合。
指標體系在數倉物理實現層面主要是結合數倉模型分層架構進行指導建設,滴滴的指標數據主要存儲在 DWM 層,作爲指標的核心管理層。
維度管理
包括基礎信息和技術信息,由不同角色進行維護管理。
-
基礎信息對應維度的業務信息,由業務管理人員、數據產品或 BI 分析師維護,主要包括維度名稱、業務定義、業務分類。
-
技術信息對應維度的數據信息,由數據研發維護,主要包括是否有維表(是枚舉維度還是有獨立的物理維表)、是否是日期維、對應 code 英文名稱和中文名稱、對應 name 英文名稱和中文名稱。如果維度有維度物理表,則需要和對應的維度物理表綁定,設置 code 和 name 對應的字段。如果維度是枚舉維,則需要填寫對應的 code 和 name。維度的統一管理,有利於以後數據表的標準化,也便於用戶的查詢使用。
指標管理
包括基礎信息、技術信息和衍生信息,由不同角色進行維護管理。
-
基礎信息對應指標的業務信息,由業務管理人員、數據產品或 BI 分析師維護,主要包括歸屬信息 (業務板塊、數據域、業務過程),基本信息 (指標名稱、指標英文名稱、指標定義、統計算法說明、指標類型 (去重、非去重)),業務場景信息 (分析維度,場景描述);
-
技術信息對應指標的物理模型信息,由數據研發進行維護,主要包括對應物理表及字段信息;
-
衍生信息對應關聯派生或衍生指標信息、關聯數據應用和業務場景信息,便於用戶查詢指標被哪些其它指標和數據應用使用,提供指標血緣分析追查數據來源的能力。
原子指標定義歸屬信息 + 基本信息 + 業務場景信息派生指標定義時間週期 + 修飾詞集合 + 原子指標修飾類型主要包含類型說明、統計算法說明、數據源 (可選)
**5. 指標體系建設流程 **
建模流程
建模流程主要是從業務視角指導工程師對需求場景涉及的指標進行主題抽象,歸類,統一業務術語,減少溝通成本,同時避免後續的指標重複建設。
分析數據體系是模型架構中彙總事實表的物理集合,業務邏輯層面根據業務分析對象或場景進行指標體系抽象沉澱。滴滴出行主要是根據分析對象進行主題抽象的,例如司機主題、安全主題、體驗主題、城市主題等。指標分類主要是根據實際業務過程進行抽象分類,例如司機交易類指標、司機註冊類指標、司機增長類指標等。 基礎數據體系是模型架構中明細事實表和基礎維度表的物理集合,業務邏輯層面根據實際業務場景進行抽象例如司機合規、乘客註冊等,還原業務核心業務過程。
開發流程
開發流程是從技術視角指導工程師進行指標體系生產、運維及質量管控,也是數據產品或數據分析師和數倉研發溝通協調的橋樑。
6. 指標體系圖譜建設
指標體系圖譜概述
指標體系圖譜也可稱爲數據分析圖譜主要是 依據實際業務場景抽象業務分析實體,整合梳理實體涉及的業務分類、分析指標和維度的集合。建設方法:主要是通過業務思維、用戶視角去構建,把業務和數據緊密關聯起來,把指標結構化分類組織。
建設目的:
-
對於用戶:
便於用戶能夠快速定位所需指標和維度,同時通過業務場景化沉澱指標體系,能夠快速觸達用戶數據訴求。
-
對於研發:
利於後續指標生產模型設計、數據內容邊界化、數據體系建設迭代量化和數據資產的落地。
指標體系圖譜模型
指標體系圖譜實例
指標體系產品化
指標體系涉及的產品集主要是依據其生命週期進行相應建設,通過產品工具打通數據流,實現指標體系統一化、自動化、規範化、流程化管理。因爲指標體系建設本質目標是服務業務,實現數據驅動業務價值,所以建設的核心原則是 “輕標準、重場景,從管控式到服務式”。通過工具、產品、技術和組織的融合提高用戶使用數據效率,加速業務創新迭代。
其中 和指標體系方法論強相關產品就是指標字典工具的落地,其產品的定位及價值:
-
支撐指標管理規範從方法到落地的工具,自動生成規範指標,解決指標名稱混亂、指標不唯一的問題,消除數據的二義性
-
統一對外提供標準的指標口徑和元數據信息
工具設計流程 (方法論 -> 定義 -> 生產 -> 消費)
指標定義
結束語
文章整體介紹了指標體系建設方法論 & 實踐和工具產品的建設情況,指標字典和開發工具已實現流程打通,與數據消費產品的打通後續會通過 DataAPI 方式提供數據服務。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/c6zK8edaYBOs1x8ox5Te5w