詳解非結構化數據治理

隨着互聯網技術的日新月異,內容數據逐漸在各行業的業務中佔據更重要的地位。日常的業務過程中,需要處理的大量電子文檔、圖片、音頻、視頻等,都屬於內容數據範疇。

例如,某銀行的無人營業網點的遠程業務辦理中,要求用戶上傳身份證、簽字頁等掃描件,來覈實用戶身份。爲其做後端支撐的影像管理平臺,就屬於典型的內容管理系統。基於該類平臺,企業替代了業務處理中的紙質化傳輸,實現了海量非結構化內容數據的採集、加工、傳遞及服務的全生命週期的數據整合,大幅提升了生產效率。

內容管理系統,除了管理非結構化的內容數據(如圖片、語音、視頻等),還需要實現內容文件的元數據(如文件標籤)的管理,才能爲業務系統提供服務,如批次上傳 / 下載、標籤化、全文檢索、生命週期管理、文件加工轉存、斷點續傳等。

對內容數據進行收集、存儲、管理和利用的整個過程,已經成爲企業提高業務效率和提高盈利能力的有效方法。

01 非結構化數據概述

“非結構化數據” 是什麼?相較於記錄了生產、業務、交易和客戶信息等的結構化數據,非結構化的信息涵蓋了更爲廣泛的內容。非結構化數據指的是:數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、XML、 HTML、各類報表、圖像和音頻 / 視頻信息等。

相對於結構化數據,非結構化數據具有以下特點數據存儲佔比高、數據格式多樣、結構不標準且複雜、信息量豐富、處理門檻高。

當前行業公認:非結構化數據佔數據總量的 80% 以上。結構化數據僅佔到全部數據量的 20%,其餘 80% 都是以文件形式存在的非結構化和半結構化數據,非結構化數據包含各種辦公文檔、圖片、視頻、音頻、設計文檔、日誌文件、機器數據等。

非結構化數據的佔比圖

非結構化數據沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現。

下面對比一下結構化數據和非結構化數據的區別:

結構化數據,是指由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規範,主要通過關係型數據庫進行存儲和管理。

結構化數據格式形式如圖下:

結構化數據

非結構化數據,是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻 / 視頻信息等。

02 非結構化數據管理存在的問題

1、數據種類繁雜,形式多樣

由於企業日常經營管理和業務管理的需要,建立了功能各異的應用系統或信息化管理平臺,而這些管理系統和平臺中生成了形式多樣的非結構化文檔數據,用以支撐企業的各類管理工作。

除此之外,還有大量與管理相關的非結構化文檔數據散存在員工個人工作電腦中。這些數據種類繁雜,有的來源於外部,有的是經過內部整理編研形成的,有的則是完全產生於內部;涵蓋了不同格式、不同存儲載體、不同管理階段的非結構化文檔數據。

一般來說,企業擁有形式多樣的存儲設備,包括個人工作電腦以及信息化管理平臺中管理的設備,且歸屬於不同的專業領域,業務活動中產生的非結構化文檔數據除了常見的與辦公活動相關的非結構化文檔數據外,還包括瞭如照片、視頻、設計圖紙等多種形式。目前,這些不同種類的非結構化文檔數據基本處於分散狀態,很難進行有效的關聯和整合。

2、信息孤島造成數據割裂現象嚴重

由於信息系統建設具有階段性特徵,已有的信息系統建設之初僅以單個的業務需求爲目標,彼此孤立,存在着比較嚴重的孤島現象,系統之間缺少橫向的數據接口,且數據標準不統一。即便是歸檔後進入檔案系統之中的文檔數據也難以實現有效的管理與集成。

例如,企業業務活動中存在着很多簡稱、全稱以及英文名稱並行使用的情況,很多數據標籤對應同一個事物、同一個意思卻使用不同的標籤值。隨着企業對數據資產價值需求的日益提升,這種現象的弊端亦凸顯,打通企業非結構化文檔數據的 “任督二脈”,實現其資產價值勢在必行。

3、存在過多的 “賬外” 非結構化文檔數據,缺少統一管控

由於企業的歸檔制度不夠完善,集團制訂的歸檔範圍未將一些應歸檔但無法通過系統流轉的文檔納入其中,部門相當一部分非結構化文檔數據仍保存在個人電腦之中,沒有統一的管理和控制,難以進行檢索和共享利用,導致企業文檔數據資產存在着流失的風險。

4、非結構化文檔數據管理功能不全

如不支持有版本的非結構化文檔數據管理,使用口徑不統一,相同文件分散在不同的業務系統中,無版本控制導致無法確定系統中版本是否爲最新。再如,業務系統缺少歸檔功能和接口,導致部門無法及時提交應歸檔保存的非結構化文檔數據,導致非結構化文檔數據資產容易丟失。同時,許多非結構化文檔數據往往以 “附件” 的形式存在於系統中,難以檢索與利用。

企業一些信息系統(如 OA 系統、ERP 系統等)中文檔多以表單(如辦文單)的形式進行流轉,需要辦理的文檔通常作爲表單的附件,其中既有 word 或 pdf 等格式的文本文檔,也有多種格式的圖片、音視頻文件等。這些非結構化文檔往往只能藉助其所依附的表單信息或者簡單的文件標題等元數據加以檢索和利用,檢全率低,開發利用不足,難以開展深度的數據挖掘與分析。

5、相關制度體系不健全、管理缺位

企業現有的文檔管理制度並不是建立在徹底的數據清理基礎之上,因此,對於企業中生成哪些非結構化文檔,哪些需要歸檔,如何進行歸檔?如何進行管理和利用等問題,現有制度中均缺少系統、細緻、可操作的規定和描述。

而且,非結構化文檔數據缺少必要的分類及元數據項。尤其是文檔生命週期流程,即從文檔生成、流轉、辦結到歸檔、保存、利用的全過程,並沒有非常清晰和規範的管理流程和要求。

同時,企業業務活動往往涉及多個參與方,既有企業內部的部門,也有外單位,協同管理與歸口管理的矛盾突出。這就對企業的非結構化文檔數據管理提出了更高的要求,尤其是非結構化文檔數據的準確性、及時性、一致性、安全性等方面。

此外,企業非結構化文檔數據類型包括內部發文、外部發文、收文、簽報、合同、業務文件附件及歸檔之後的檔案。除了歸檔之後的檔案數據是由數字檔案管理系統進行集中統一管理之外,歸檔之前的非結構化文檔數據往往處於分散管理的狀態,存在着失存、失真、失控和失用等諸多問題,直接影響了後端檔案數據的質量,影響了文檔數據資產價值的發揮。

針對上述問題,要想真正實現企業文檔數據資產的科學管理,非結構化文檔數據管理勢在必行。

03 非結構化數據治理體系規劃

由於非結構化文檔數據數量大、範圍廣、數據狀態繁雜,涉及部門、人員和系統衆多,正所謂牽一髮而動全身。因此,要順利開展非結構化文檔數據的治理,必須充分做好前期的準備工作和規劃。

在 “摸清家底”—現狀調查和現狀評估的基礎上,結合《信息技術服務 治理 第 5 部分:數據治理規範》提出的數據治理框架,從頂層設計、數據治理環境、數據治理和數據治理過程四大部分開展非結構化文檔數據的管理。

1、頂層設計

企業的發展戰略、管理模式和關鍵業務活動對於企業信息化及其數據治理的方向和目標起着決定性的導向作用,同時,企業各級部門及人員對於非結構化文檔數據管理的理解與期望也將影響數據治理方案的設計。

因此,首先可以通過對企業關鍵業務活動的流程進行調查與分析,藉助成熟度矩陣來評估企業非結構化文檔數據在不同業務活動中的現狀水平,並根據相關制度規範或行業標杆進行對標,找出差異點,作爲項目開展的現實基礎。

然後,在上述活動的基礎上,制定企業非結構化文檔數據項目的實施規劃,包括定位、階段、原則和目標,作爲項目開展的基礎與依據。

2、數據治理環境

任何管理活動的開展都離不開所處的環境,後者是前者賴以生存的生態系統。國內外宏觀環境、行業環境和企業內部環境構成了環境要素的三個層面。

在這三個層面中需要縱向考慮政策、制度標準、趨勢、文化、傳統等要素對於項目的影響作用,要遵循法律法規、行業監管、內部管控,滿足數據風險控制、數據安全和隱私的要求。

識別並評估市場發展、數據清理、競爭地位和技術變革等變化,規劃並滿足數據治理對各類資源的需求,包括人員、經費和基礎設施。

尤其要關注企業文化、體制傳統對管理活動實施的潛在影響,區別有利因素和阻礙因素。

3、數據治理框架

在前述兩個步驟的基礎上,圍繞數據標準、數據質量、數據安全、元數據管理、內容管理和文檔全生命週期管理等方面,搭建企業非結構化文檔數據管理系統平臺,在企業內部打通各業務系統之間的壁壘,在統一的平臺之上規範非結構化文檔數據的管理,同時融合元數據管理和內容管理。

文檔類型關聯着文檔的元數據,不同的文檔類型具備不同的文檔元數據集合,也對應着不同的管理策略和機制。因此,需要統一制定符合管理和利用要求的非結構化文檔數據元數據標準體系。

內容管理理念則作用於數據管理平臺底層,以數據內容爲中心統一存儲、管理企業內部已建、在建、未系統化管理的非結構化文檔數據,爲上層業務管理、知識管理、智能搜索等業務應用的建設提供支撐。

4、數據治理過程

按照項目管理流程的一般要求,針對企業非結構化文檔數據管理具體目標和內容,進行統籌規劃、構建運行、監控評價、改進優化四個階段的流程控制。

在此過程中,由於項目涉及企業各個層級、各個部門的衆多人員、系統及工作流程,爲了保證項目的順利實施,需要在項目開展的同時進行變革管理(Change Management),通過調研、宣貫和培訓等手段加強企業員工對項目的認知和接受程度。

04 非結構化數據治理解決方案

非結構化數據管理在企業實踐中主要體現爲 ECM 企業內容管理,其解決方案是通過企業內容管理系統來得到各項非結構化數據管理 工作的具體落地實施。

內容是指各類文檔中包含的數據,其中以文本、圖像、音頻、視頻等非結構化數據爲主。ECM 企業內容管理是指以一種戰略或方法, 來幫助企業獲取、管理、存儲、保護、利用和洞察企業組織流程相關的非結構化數據,如下圖所示。

ECM 企業內容管理是一種專注於非結構化數據領域的軟件類型, 其涵蓋了企業網盤、文檔管理、知識管理、文件安全交換、工程協同設計、文件安全外發、檔案管理、影像文件管理、電子文檔安全管理、文檔雲、ISO 質量文件體系管理、GMP 質量文件體系管理、非結構化數據管理平臺、工程內容管理等應用軟件,以及基於 AI 智能和 Graph 知識圖譜技術的智能推薦、智能搜索、智能定密、智能安全分析等內容智能應用。

ECM 企業內容管理系統可以幫助企業內容管理戰略落地,通過內容獲取、管理、存儲、保護、利用等方式挖掘和釋放內容價值,最終促進企業數字化轉型,提升企業運營效率,並獲得企業商業洞察能力與長遠競爭優勢。

Gartner 於 2017 年修正了企業內容管理的定義:企業內容管理是一種服務,包括內容協作平臺、內容服務平臺和內容業務平臺。具體表現爲具有通用 API 接口和多儲存庫的平臺型軟件,服務於多分支組織機構和各種應用場景。

Gartner 在《預測 2019:內容服務的技術融合》中提出:越來越多的內容創新數字業務促進了對元數據解決方案需求的增長,使得通過使用人工智能來實現以前只能通過人類專業知識才能實現的自動化解決方案變得更加具有可行性。

進一步分析 Gartner 內容服務框架,其主要包括內容管理平臺、內容服務應用和內容組件。其中內容管理平臺是底層內容統一存儲和統一管理的基礎平臺,提供各種 API 接口和 Connector 連接器等集成支撐;內容服務應用強調以內容爲中心的業務應用;內容組件是一種類似轉檔、預覽、編輯等細顆粒的內容服務組件,其能力可輸送於內容服務平臺和內容服務應用。

企業內容管理本質是爲企業業務和數字化轉型提供內容服務支撐,並具有內容服務的快速響應能力。基於內容服務平臺 CSP 的內容服務應用 CSA 分爲體系化 CSA 和場景化 CSA。其中體系化 CSA 覆蓋垂直業務領域的內容服務,場景化 CSA 注重與第三方業務系統的集成和整合。

完整的內容服務框架如上圖所示,其底座是內容服務平臺,中層是基於低代碼開發技術的內容業務平臺,上層構建起內容協作、內容安全、內容管理、內容治理、內容合規、內容業務、內容智能等各種內容應用場景。

05 總結

數據就像石油,需要經過提純加工才能使用,才能實現其資產價值。非結構化文檔數據是 “數據石油” 的重要來源,企業需要遵循分級分類的管理思想,通過平臺化、智能化和安全化的管理方法,才能構建出完整的非結構化文檔數據管理體系,圍繞能給業務帶來價值的非結構化文檔數據資產進行建設,從而推動非結構化文檔數據向數據資產的轉化。更多幹活,可下滑看博主推薦。

參考資料:

1、《檔案學研究》,2020 年第 6 期

2、《非結構化數據管理解決方案白皮書》,2020 版

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/Z651GiV4R3sAzgWdU0RWCQ