AI 前沿：數據智能產品與技術漫談

創新奇智數據智能產品團隊投稿

量子位報道 | 公衆號 QbitAI

背景：大數據是 AI 時代的基石。企業與政府大力加強業務智能、決策智能發展，其中，數據相關的基礎設施、應用與服務建設一直是焦點所在。人工智能公司創新奇智的數據智能團隊依託 Orion 自動化機器學習平臺，在製造、金融、零售等場景中，積累了不少實踐經驗。本文以問答方式，與創新奇智的數據智能產品總監、技術總監探討了數據智能領域的產品與技術實踐規律及前沿趨勢。

問：如何理解 “數據智能”？在行業市場上，數據智能是一個常用於產品宣傳，卻又缺乏清晰定義的一個術語。該如何看待這個概念的本質？

答：企業和政府信息化部門做了多年的大數據建設，這個領域概念繁多，脈絡複雜。經常看到不同背景的人在一起談數據智能，說的卻不是一件事。根據我們的理解：

數據智能的本質是——由高價值大數據有效驅動的智能業務。

從行業客戶的業務視角來看，當然是先有業務需求，再有數據智能產品或解決方案。例如，我需要智能營銷，自然就引發有關客戶畫像的機器學習需求，而機器學習類的算法需求又必然引發對高質量數據樣本、數據標籤等的依賴。

從產品與解決方案的系統視角看，數據智能需要先打下良好的地基——大數據平臺，然後在其基礎上建設機器學習算法領銜的人工智能平臺，以支撐應用層的業務功能，實現客戶的業務規劃和產出預期。

整個大數據體系的理論基礎早在 2004 年前後就已經建立起來了。過去一二十年，行業先解決的是 “有沒有數據” 的問題，即 “數字化”“信息化” 等老問題。數據在平臺內的表現形式經過幾次迭代，從單純的結構化數據，到結構化與非結構化數據的共生，再到多模態數據以及與特定應用類型相關的數據視圖，等等。

接下來，完成了信息化建設的行業客戶開始把注意力集中到數據本身的價值問題上，即 “數據有沒有用” 的問題。

再進一步，當行業客戶擁有了高價值的大數據基礎後，必然要追求大數據在智能業務中的使用效率和價值回報。最近幾年人工智能熱度高，不少客戶嘗試使用機器學習系統來解決業務問題，但數據基礎、機器學習算法和業務應用之間往往難以形成良性循環，數據與算法和業務之間的關聯度不高，人工智能技術未能深入到核心業務鏈條中，很難達到一個最佳的投入產出比。

好的數據智能產品必須能解決這些問題，至少，應能做到以下三點：

降低客戶積累與聚合高價值大數據的整體成本；
在保障數據安全的基礎上，大幅提高客戶數據的流轉效率和使用效率；
發揮客戶大數據中蘊含的信息價值和業務價值，利用智能算法提高客戶業務效率。

問：許多客戶反映，他們在數據智能建設上的最大痛點是經常發現數據不可見、不好用、噪音多、難聚合、難提煉、難生效。數據智能產品該如何避免這些痛點？

答：從大數據到人工智能的建設鏈路週期很長。很多客戶也是在建設中邊摸索、邊改進需求、邊升級業務流程的。

如果用割裂的方式，分別考察和採購數據庫、大數據平臺、機器學習算法、業務應用軟件等，就很容易導致上述痛點問題的出現。反之，如果能在一個整體思路下，仔細評估數據智能產品與客戶當前工具鏈、價值鏈的匹配度，項目的成功概率就大了很多。

在工具鏈層面，客戶要採購的數據智能產品必須和今天客戶環境中的相關軟硬件工具協同工作。技術上，新產品是否能從已有產品中順利導入導出數據，能否和現有 IT 運維人員的能力匹配，是否能和已有的數據存儲平臺兼容等，都是工具鏈層面需要考察的重點問題。

在價值鏈層面，數據智能產品與客戶的業務有多好的連接度，能同時支持多少業務的運行，能在業務運行時提供多少效率提升或價值提升，最終的投資回報是多少——這些問題不想清楚，上述痛點必然反覆出現。

舉個例子，我們在爲某家銀行做智能風控業務時發現，該銀行曾經嘗試過一個機器學習算法支撐的風控模型，但實施過程中客戶自己發現，無論如何優化，該風控模型的 “增益” 就是上不去，很難在業務層面體現出可見的價值回報。客戶回過頭來調研後得到結論：

機器學習模型效率不高，是因爲從大數據層提取的樣本特徵質量不高；
樣本特徵質量不高，是因爲大數據層聚合的原始數據噪音較多；
原始數據噪音較多，最明顯的原因是已有的大數據平臺是與上層的機器學習模型分別建設的，數據雖多，卻難以用機器學習算法期待的方式參與上層的風控模型。

簡單說，這家銀行採購的大數據平臺與風控模型之間缺乏可連接性，豐富的數據資源難以發揮效力。我們爲這家銀行提供的解決方案，就更像是一條能夠將大數據平臺與智能風控模型聯通的自動供應鏈——其實就是從業務視角出發，將大數據平臺的數據在更高一層的視圖上進行再次清洗、對齊和平展化，然後在工具鏈中，增加一個自動特徵工程的層級，利用機器學習算法自動完成特徵生成、特徵價值評估和特徵篩選。經過這樣的系統改進，最上層的風控模型拿到的樣本特徵質量獲得大幅提高，業務價值也逐漸凸顯出來。

問：從大數據到智能決策的整個產品鏈條，未來的發展趨勢是什麼？

數據智能的整體產品設計經歷了三個發展階段。我們把各階段的典型產品形態總結成三種 “數據智能範式”：

一、傳統範式——以業務單元爲核心

由業務需求帶動數據需求的模式——早期的數據類應用以業務需求爲單元，單獨建設，隔離發展。每個業務模塊擁有自己獨立的數據支撐和應用支撐。

二、流行範式——以數據整合爲核心

單純的數據整合與業務整合可以解決資源共享的基本問題，但不易達到數據使用效率的最大化。我們認爲，未來更好的數據智能範式，應該是自上而下圍繞業務價值建立的數據按需供給、自動響應、安全流轉的新範式。

在未來的數據智能範式中，客戶對業務價值的要求體現在整個系統架構的設計思路里。自底向上，系統逐層提供數據支撐和業務靈活度：

未來範式的基礎是 “數據資產地圖”。“數據資產” 和傳統 “數據” 這兩個概念間的最大不同是前者強調數據的可用性，後者強調數據的技術形態。所有數據都可能形成數據資產。我們可以通過智能技術，將數據的潛在價值挖掘出來，例如，將實體間的關係揭示出來，將隱藏在信息背後的深層知識抽取出來，將數據中蘊含的樣本特徵提煉出來，將數據在高維空間的分佈規律描繪出來，等等。我們還可以在非常細的粒度上，爲每一 “份” 數據標記它的來源、位置、交換方式、“健康”狀況等。由此，上層算法或應用不僅可以快速找到所需的數據，還可以隨時知曉這份數據該如何用，是否可用等。在數據資產地圖中，每份數據都是“有生命的”。

未來範式的中間層級是 “數據供應鏈”。這個概念和此前強調數據聚集與使用關係的“數據倉庫” 以及強調通用業務單元的 “中間件” 不同。數據供應鏈更強調數據與不同業務應用之間的無縫銜接和數據在整個業務流程中的安全、有序流轉。簡單說，未來的大數據不應是靜態的數據聚合與共享，而應該是動態的，可以根據業務流程的變化而變化，“按需匹配”完成數據供應的技術體系。

最後，統一的數據資產地圖和高效的數據供應鏈支撐起頂端的數據決策引擎。引擎可以有針對性地調度、獲取和應用數據資源，利用機器學習技術爲客戶業務提供強有力的支持。

拿圖書館來打比方：傳統範式下的數據管理就像是每個圖書館各自管理圖書，各掃門前雪；流行範式下大集中的數據管理就像是把全國各地圖書館裏的書都調過來，統一存在超大規模的庫房裏。這兩種方式各有各的挑戰。而在上面談到的未來範式下，圖書本身是不一定要物理集中的，集中和流轉的有可能是圖書的摘要，有可能是圖書的索引，有可能是圖書中提取的知識脈絡或內容綱要，也有可能是表明圖書目前狀態和使用價值的元數據。讀者可以在任何時候、任何地點，快速定位需要的信息或知識。讀者需要什麼樣的知識組織形式，圖書館就可以按照什麼樣的形式來重新組織和包裝知識——這是知識的按需供應。

所謂 “數據供應鏈”，本質是一種價值傳導。很多大數據工程是先搭好數據平臺，然後等着業務過來使用，就像圖書館先把圖書擺在書架上，等着讀者來借閱。如果用動態的思路來看待這個問題，我們完全可以用更低的成本，更聰明地組織好數據資產中的定位信息和元數據，每當一個新的需求方提出了數據訪問要求，就很快通過一個靈活的配置文件，將所需的數據組織好，供給到需求方——這是數據價值的按需供應。

問：數據庫，數據倉庫，數據湖，數據中臺，數據集市，數據治理，大數據操作系統，AI 操作系統，智能決策引擎…… 這些相關但內涵又非常不同的概念之間，是否反映了某種技術和產品演進規律？

答：在行業解決方案這個大背景下，技術和產品概念的演進必然是市場需求與技術迭代兩者相互作用、相互助力的結果。早期的概念更偏向對技術價值的展現，中後期，這一類概念逐漸轉向業務需求驅動，更偏向對業務價值的展現。

例如，很多年前，數據倉庫、數據 ETL（抽取、轉換、加載）的概念更多是從技術側演進的，基本上源於技術人員在解決那些簡單關係型數據庫力不從心的任務時的深入思考與高層設計。單點的業務需求和單點的技術積累一旦拓展到不同的數據維度，不同的數據分析方式，就必然引發更高層次的架構組合與技術抽象。

而晚些出現的數據湖、數據集市、數據中臺等概念，則更加深刻地體現了系統對業務價值的支撐。產品和技術人員搭建的平臺已經從數據庫、數據倉庫等要解決的 “如何存”“如何查” 等基礎問題，上升到了 “不同模態的業務數據如何聚合”“數據如何被業務使用”“業務如何擴展” 等問題。後面這些問題顯然與業務價值更近。

當然，也有一些概念是純粹針對市場的包裝。比如很多產品聲稱自己是 “AI 操作系統”，可業界對什麼是“AI 操作系統” 的理解並不一致，機器學習所代表的 AI 算法集合與管理計算資源、輸入輸出設備的操作系統之間也缺乏技術上的可比性。這樣的概念有很大的市場營銷空間，但可能很難在產品與技術領域沉澱下來。

問：技術和工程層面，今天數據智能相關的熱點技術有哪些？

舉例來說，多模態數據的處理是一個難點，也是今天的技術熱點。今天各類行業客戶業務相關的大數據環境裏，數據本身的形態複雜度急劇增加。文本、語音、圖像、視頻等數據和傳統的結構化數據相比，單條數據的體積更大，信息密度也更低，但是事實性更強。體積更大會導致存儲成本更高，進而會導致在實際環境中其存儲的時間更短，處理時消耗的計算資源更多，處理的時間更長；信息密度更低，使得我們在使用時一般會基於場景做一些信息抽取的過程，轉換成結構化數據使用；事實性更強，所以在做基於多模態數據的綜合判斷時，這些非結構化數據的結論權重會更高。

深度學習技術的迅猛發展爲解決類似問題提供了很好的技術支撐。最近兩年非常火的基於 Transformer 的預訓練模型可以跨數據形態，用類似的方式學習到文本、語音、圖像、視頻中蘊含的信息或知識。比如，2021 年 3 月阿里巴巴與清華大學聯合發佈的業界最大的中文多模態預訓練模型 M6，就可以適用於廣泛的多模態任務，包括產品描述生成、視覺問答、詩歌生成等，還專門支持文本引導的圖像生成任務。

此外，如何用人工智能的前沿技術，自動清洗數據，如何自動將不同來源、不同字段規範的數據相互對齊，如何從數據背後發現隱藏的更有價值的信息或知識，如何從一個領域數據處理快速遷移到另一個領域等，都是未來幾年數據智能領域需要投入大量研發資源的地方。

當然，人工智能不是萬能的，不是一件拿着錘子就可以到處敲釘子的工作。好的人工智能技術要落地，必須結合具體業務，將算法的應用範圍限定在一定的場景內。即，人工智能落地非常依賴於 “有限場景”。簡單講，如果不限定領域，從所有文本中評估兩個實體間的相關度肯定是非常難的，但如果限定金融領域的文本，這時再評估兩個金融術語之間的相關度，問題就會容易不少。

問：數據可視化技術在數據智能中的作用如何？如何設計一個成功的數據可視化產品？

答：數據可視化是藉助視覺表達方式，將枯燥專業的，不直觀的數據內容，淺顯直觀的傳達給數據使用者的一種手段，是數據智能的重要組成部分。

例如，將一組無序的離散數值型數據做可視化時，如果受衆幾乎沒有統計學相關的知識，我們可以按照數值區間分組，然後通過餅圖或者南丁格爾玫瑰圖來顯示；如果稍微有一點點統計學的知識，則可以通過箱型圖來顯示；如果有一定的統計學背景，就可以選擇用直方圖了；如果統計學知識很深厚，則可以進一步在直方圖上擬合出概率質量函數。

當然這些還僅僅只是從數據視角出發考慮的問題，從藝術視角來看，針對統計學知識比較少的受衆，在一些報告類的數據可視化產品中可以用一些更個性化、更酷炫的方式展現餅圖、南丁格爾玫瑰圖或者箱型圖中的數據；從設計的視角來看，針對有豐富統計學知識的受衆，在直方圖和概率質量函數擬合時可以提供豐富的配置方法，讓用戶可以非常方便的選擇和調節背後的算法公式。

問：自動化機器學習（AutoML）可以在數據智能系統中扮演什麼角色？在企業應用中引入自動化機器學習，有哪些需要注意的地方？

AutoML 技術最吸引人之處在於它能夠實現更便捷、更高質量的 AI 智能應用搭建，從而實現人工智能這種社會基礎動力的普及。識別、預測等各類與機器學習相關的業務需求，都可以通過 AutoML 來不斷降低搭建門檻、提升效率和質量。

建設 AutoML 系統時，一方面，爲了提升便捷性，要考慮整個 AI 智能應用搭建的全流程。例如，場景化 AutoML 平臺在機器學習建模過程之外，涵蓋模型搭建前的業務分解、數據評估以及後續的智能應用部署實施和更新等流程，形成完整的自動化流程，滿足客戶從業務到任務、從任務到流程、從流程到模型以及從模型到最終應用的全流程需求。另外，採用無代碼或低代碼的開發方式以及友好的用戶界面，加以對自動化環節的可解釋性展示，最終達到用戶便捷無憂的實際體驗。

另一方面，AutoML 結果的高質量是依賴先進算法以及高質量模型和知識的豐富積累來實現的。如創新奇智的場景化 AutoML 平臺，在採用業界最先進的自動化特徵工程、模型選擇、參數優化、模型融合等算法技術的同時，基於元學習和經驗概化理論，首創了基於實際場景遷移的 AutoML 方法，實現了一整套場景化 AutoML 方法論和算法工具，從而最大化人工智能引擎的最終效果。

問：如何高效管理數據智能平臺涉及的各類計算資源，特別是深度學習高度依賴的 GPU 資源？

舉例講講單 GPU 訓練和多 GPU 訓練的資源調度問題。

該如何高效利用好單張 GPU 的算力資源？GPU 的架構模型與 CPU 有很大不同，很多時候難以沿用 CPU 虛擬化的方案。我們常需要針對 GPU 的特點，構建一種適用的虛擬化方案。除了 Nvidia 的商業方案外，隨着雲原生的發展和開放，還有很多基於 K8s 的技術方案可供選擇。其中有兩個主要技術：調度技術解決是否允許將任務分配到某張 GPU 卡上的問題，隔離技術解決同張 GPU 卡上不同任務之間不互相影響的問題。

該如何提升 GPU 集羣的分佈式訓練效率？訓練任務規模的增長要求分佈式的訓練方式，而分佈式訓練必然會涉及到模型參數的同步和分發，技術上既有基於參數服務器的 PS 架構，也有從 HPC 領域發展而來的基於 MPI 通信原語的 Ring AllReduce、Binary Blocks 等架構，這些架構除了解決分佈式訓練過程中模型參數的同步問題外，還在降低參數同步所帶來的性能損耗方面做出努力。這樣，對於分佈式訓練任務，用戶僅需指定資源需求、Worker 節點數量，提供訓練代碼，就可實現像單機訓練任務一般簡單的分佈式訓練。

從客戶角度講，數據智能平臺的基礎資源管理部分最好能提供一種同時兼容單 GPU 訓練和分佈式 GPU 訓練的任務、資源調度方案。在客戶業務初期試驗階段，任務規模一般較小，通過虛擬化方案，客戶可以實現在一張 GPU 上同時訓練多個任務；而在業務應用階段，單機訓練無法承載生產級別的數據量和模型規模，需要借力分佈式訓練，最大程度的發揮 GPU 集羣的整體效率。

問：創新奇智在數據智能領域提供的 Orion 系列產品和解決方案有何特點？

創新奇智的 Orion 自動化機器學習平臺是一套符合未來數據智能範式的，擁有可靈活選擇、配置的三層結構，面向行業客戶，以私有化部署爲主的系列產品和解決方案。Orion 數據智能引擎主要包括三大產品單元：

Orion IRC：智能資源調度管理，提供計算資源管理和數據資產地圖。
Orion DAC：智能數據融合管理，支持數據動態融合，實現數據供應鏈。
Orion AML：自動化機器學習，基於數據完成智能決策。

從設計初衷上說，Orion 自動化機器學習平臺主要希望幫客戶解決兩件事：如何用好數據，如何提高數據決策能力。

首先，要 “讓數據會說話”。獲取、清晰、存儲、加工、管理這些數據基礎操作都只是手段而不是目的，最終目的是能讓客戶從數據中獲取足夠的使用價值。這裏面最關鍵的因素是如何“盤活” 數據資產。數據越來越多，但只有 “盤活” 了數據與業務之間的供需關係，真正建成了“數據供應鏈”，客戶業務纔能有提升。

繼而，要 “讓數據會決策”。數據智能引擎必須在數據建設的基礎上，用有效的、面向業務目標的機器學習能力，幫助客戶提高從信息中獲取知識，從知識中預測趨勢，從趨勢中洞見未來的能力。有了這樣的能力，客戶的決策才能真正升級到數據驅動的層次上。

Orion 自動化機器學習平臺的核心使命就是利用前沿技術盤活客戶數據，實現數據價值，賦能客戶業務。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/TiJgKWZDLIYN6_Orm-O4Fg

創新奇智數據智能產品團隊 投稿