銀行數據治理:數據質量管理實踐

現代商業銀行日常經營活動中積累了大量數據,這些數據除了支持銀行前臺業務流程運轉之外,越來越多地被用於決策支持領域,風險控制、產品定價、績效考覈等管理決策過程也都需要大量高質量數據支持。銀行日常經營決策過程的背後,實質是數據的生產、傳遞和利用過程。

此外,日益全面的和嚴格的監管措施和信息披露要求,也對銀行數據提出了前所未有的挑戰。如果不能對這些數據進行有效管理,其價值就得不到很好體現,甚至會給運營管理帶來負面作用,具體表現爲:

01 數據治理體系簡介

數據治理是爲滿足企業內部信息需求,提升企業信息服務水準而制定的相關流程、政策、標準以及相關技術手段,用於保證信息的可用性、可獲取性、高質量、一致性以及安全性。數據治理體系建設的目的,是建立數據擁有者、使用者、數據以及支撐系統之間的和諧互補關係,從全企業視角協調、統領各個層面的數據管理工作,確保內部各類人員能夠得到及時、準確的數據支持和服務。通常認爲,數據治理至少應當涵蓋如下功能域:數據質量管理、元數據管理、數據標準管理數據安全管理和主數據管理,現對上述功能域說明如下:

1. 數據質量管理

對支持業務需求的數據進行全面質量管理,通過數據質量相關管理辦法、組織、流程、評價考覈規則的制定,及時發現並解決數據質量問題,提升數據的完整性、及時性、準確性及一致性,提升業務價值。

2. 元數據管理

元數據是關於數據的數據,即對數據的描述信息。根據其屬性的不同,元數據可分爲技術元數據和業務元數據。元數據管理是元數據的定義、收集、管理和發佈的方法、工具及流程的集合,通過完成對相關業務元數據及技術元數據的集成及應用,提供數據路徑、數據歸屬信息,並對業務術語、文檔進行集中管理,藉助變更報告、影響分析以及業務術語管理等應用, 以此保證數據的完整性、控制數據質量、減少業務術語歧義和建立業務人員之間、技術人員之間,以及雙方的溝通平臺。

3. 數據標準管理

通過建立一整套數據規範、管控流程和技術工具來確保銀行各種重要信息,包括產品、客戶、機構、賬戶等信息在全行內外使用和交換的一致和準確。數據標準可分爲技術標準和業務標準。

4. 數據安全管理

通過建立對數據及相關信息系統進行保護的一系列措施, 確保數據免遭未經授權的訪問、使用、修改或刪除,保證數據完整性、保密性和可用性,具體可分爲管理和技術兩大類措施。

5. 主數據管理

主數據指描述核心業務實體的數據,如客戶、機構、員工、產品等。這些數據變化相對緩慢並通常在企業內跨業務重複使用。主數據管理適用於管理、協調、監控與企業主要業務實體相關聯的主數據的一系列規則、技術、應用、策略和程序。

02 數據質量管理簡介

業界普遍認可的數據質量定義爲數據對其期望目的的適合度,即數據質量管理生命週期及其相關的數據質量管理流程,都要爲確保數據滿足其自身預期目標提供相應的方法和手段。

數據質量管理基礎和問題分類 

下列要素是進行數據質量管理的基礎:             

銀行關注的常見數據質量問題可以歸成如下 7 類:

1. 定義缺失, 指缺少關鍵業務元素定義,導致對同一字段的理解偏差。例如,

什麼是 “一個客戶”,不同業務有不同理解,通常風險應用將組織機構號作爲對公客戶的 “身份證”,一個組織機構號代表一個客戶;而核心系統對客戶號的分配較爲隨意,允許一個組織機構號下存在多個客戶號。

2. 數據異常, 指系統的個別字段出現了異常信息,包括取值錯誤,格式錯誤、多餘字符、亂碼等。

3. 信息缺失或不準確, 指在系統表中已經設計了某些字段,但在使用過程中, 很多記錄卻沒有收集這些字段的信息,或存在信息收集不準確、信息重複登記等情況。信息缺失或不準確通常在客戶信息方面最爲嚴重。

4. 系統之間數據不一致, 主要體現在兩個方面:

5. 數據完整性問題。 數據完整性問題主要體現在兩個方面:(1) 參照完整性,是指一個表 A 的外鍵不包含無效的鍵值,例如,借據表中記錄了合同號,但是在合同表中無法找到相關記錄;(2) 數據含義衝突,如某些賬戶,從賬戶屬性、存期等字段看,應是通知存款產品,但從科目看,又是普通定期產品。

6. 數據生命週期問題。 銀行中的關鍵數據,例如,賬戶、客戶、產品信息等, 都有若干日期字段記錄其生命週期,這些日期字段包括創建 / 開戶日期、關閉 /

銷戶日期、最後交易日期和最後修改日期等,但是在業務系統中往往存在修改了記錄狀態卻並未同步更新相關日期字段的情況。此外,還有一個違反合理數據生命週期的常見做法,就是直接在物理上刪除記錄。

7. 代碼問題。 包括三個與代碼相關的問題:

03 數據質量管理方法論

圖 1 描述了權威人士普遍認可的數據質量管理方法論,共分六步。

圖 1  數據質量提升步驟圖

第一步:定義及驗證

首先,從技術和業務兩個層面對數據應當滿足的質量目標進行定義。表 1 列出了一系列數據質量度量標準,但最終的定義應當以更規範的形式進行描述。例如,屬性 X 的缺失率不超過 2%。其次,對於派生數據,其源數據和轉換的規則必須詳細說明。最後,上面描述的定義和規則將作爲數據質量評估計劃的輸入源。數據質量評估計劃主要用來驗證定義和規則的正確性,並且這個計劃將詳細描述數據必須滿足的、適合它預期用途的屬性,即它定義了數據質量。這個計劃還將指導初始的數據度量,通常也成爲數據剖析。

表 1 數據質量度量標準

FUUhKe

第二步:影響分析與共性分析

完成數據質量目標定義後,需要評估一個特定的數據質量問題在預期的數據使用適合性方面帶來的影響,並根據影響分析結果可以確定數據質量問題的重要性與優先級別。

所謂共性分析就是分析錯誤具有的共性,我們期望一次可以將許多錯誤歸結到某類共同原因。這個分析將爲下一步追蹤根本原因做好準備。

第三步:追蹤根本原因

圖 2 所示魚骨圖是一個衆所周知的用於鑑別數據質量背後根本原因的工具,它反映了需要達到的和實際的數據質量之間的差距原因,通常是信息、流程、技術、人員等因素所導致。

第四步:預防 / 修復數據質量問題

圖 3 描述了在追蹤數據質量問題的根本原因時可用到的選擇。每一個選擇都有相關的優點和弱點。

圖 2 數據質量根本原因圖

圖 3 預防 / 修復數據質量問題圖

第五步:趨勢監控

一個已知的數據質量問題被修復後並不意味着這個特定問題就被永遠解決了。如果沒有有效地預防措施,錯誤仍有可能再現。因此,對重要數據質量問題應當持續監控。圖 4 所示控制圖經常被用來做質量問題監控,當錯誤的個數在一定範圍之內浮動時,質量問題被認爲處於可控狀態。

圖 4 數據質量趨勢監控圖

第六步:識別和研究偏差

監控流程來識別問題。例如,當一個已知數據的質量超過了允許的控制範圍, 流程將需要從該分支返回到第三步再一次識別根本原因。

圖 5 識別和研究偏差圖

04 數據質量問題特徵分析

根據數據質量定義,數據的不同使用目的會導致不同的數據質量要求,例如, 業務系統對數據的使用目的主要是爲了保證業務流程的正常運轉和滿足一些簡單的統計功能,因此只要業務流程和統計正常,就可以認爲數據質量滿足要求;而分析型系統對數據的使用目的則多種多樣,而且涵蓋企業運營的方方面面,那麼滿足業務流程正常運轉的需要並不一定就能保證滿足分析的需求,因此分析型應用的需求是決定數據質量管理目標的主要因素。

在這一前提下,對企業內部數據流轉過程各環節中呈現出來的數據質量問題特性作如下分析,如圖 6 所示,數據流轉過程被分成三個階段(環節):

從圖 6 中可以看到,數據質量問題的產生主要在於數據產生環節,其次在於數據集成環節的數據加工過程,而在數據使用環節,由於原則上不再對數據作修改,因此基本上不產生數據質量問題。

圖 6 數據質量問題分析圖

數據質量問題的發現則不同,基本呈現出相反特徵:一是業務源系統雖然是數據的主要產生環節,但是通常只能發現業務流程相關的數據質量問題,而且僅限於本系統內部;二是數據集成環節由於是企業內部數據的一個最主要會聚點,因此通常也是數據質量問題暴露最多的環節;三是數據使用環節是數據質量問題頻繁暴露的另一個環節,主要是因爲對數據的使用決定了數據質量問題的定義,所以很多質量問題都是在使用時被首次發現。

05 在不同流轉環節關注的數據質量

基於數據質量管理的關鍵環節和質量問題特性,再結合業界事實數據質量管理的最佳實踐,建議在不同流轉環節側重完成的功能點實現應如下:

1. 數據產生環節。

修正——數據質量問題必須在源頭得到修正,這是數據質量管理的一項基本原則。

預防——相對於修正,預防的意義更大,主要原因在於可以防止產生新的數據質量問題。

定義——由於數據質量問題的定義主要取決於使用目的原則,因此數據質量問題的定義主要應當結合數據使用環節來發起,但事實上常常都是基於源系統的數據結構來進行定義。

2. 數據集成環節。

檢查——技術數據平臺類系統作爲銀行數據的主要會聚點,在此環節進行數據質量問題檢查的效用最高。

報告——對於數據質量檢查結果,應當以報告形式展開,並通過一定的機制 (自動工作流程或人工流程) 通知相關的數據質量問題責任人,如業務源系統項目組、業務部門、數據倉庫或應用項目組等。

跟蹤——由於來自業務源系統的數據每天都會加載到基礎數據平臺類系統中,因此,基礎數據平臺類系統應當被利用來對數據質量問題的解決進行跟蹤,並將跟蹤結果作爲提升數據質量問題治理成效的一個依據。

3. 數據使用環節。

定義——如前所述,在數據使用環節就根據數據的使用目標來定義數據應當滿足的質量標準,並作爲日後上下游系統之間服務水平協議 (Service LevelAgreement,SLA) 的輸入接口。

評估——作爲數據的最終使用者,在使用環節應當對數據質量治理的成效進行評估,並作爲下一階段設定數據質量管理目標的依據之一。

06 數據質量管理流程的關鍵點

數據質量管理流程應當涵蓋從 “數據產生” 到“數據集成”再到 “數據使用” 在內的全過程。爲了在銀行全行範圍內進行有效的數據質量管理,數據質量管理的不同功能點應恰當分佈在個流程的相應環節,在基礎數據平臺類系統上構建數據質量管理系統,並將源系統、相關應用以及相關科技和業務用戶都納入數據質量問題的發現——修正——跟蹤——評估的閉環流程當中,如此纔是實施數據質量管理的最佳選擇。

此外,數據質量管理成敗的關鍵在於合理有效的組織架構和流程,而不是管理系統自身,因此應當更爲重視數據質量管理配套的組織架構和管理流程建設。

在構建數據質量管理體系時,以下關鍵因素應當考慮:跨部門以上主管領導的重視和牽頭;負責解決數據質量問題的專門和專業組織;負責解決數據質量問題的統一和專業流程;負責解決數據質量問題的統一平臺;負責偵測數據質量問題的專業工具。

07 數據質量管理與數據治理體系的有機結合

數據質量管理應當與整個企業級的數據治理體系有機結合,圖 7 簡要說明了這些治理體系各主要組件之間的關係。

圖 7 反映的數據質量管理相關治理組件的關係如下:

圖 7 數據治理主要組件之間的關係圖

  1. 數據標準是數據質量管理進行質量檢查的規則,因此數據與標準不相符,就是一個典型的數據質量問題,通過部署數據質量管理系統,可以對數據標準的落地實施提供有效的監控、檢驗和督促手段。

  2. 元數據管理系統可以作爲數據質量管理的一個輸入端,輔助數據質量檢查 腳本的自動生成,而數據質量管理系統中存儲的檢查規則等信息又是一項元數據, 應當被元數據管理系統所採集。

  3. 數據安全管理中定義的數據所有者,是構建數據質量治理閉環流程和確定數據整改權責的重要依據。

本文來源中國銀行總行信息科技部,作者孫中東

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/T_QkdE6ZflLJbgyK0MozBw