趙宏田:用戶畫像場景與技術實現

分享嘉賓:趙宏田 大數據架構師

編輯整理:蘇麗萍 彩訊股份

出品平臺:DataFunTalk

**導讀:**感謝 DataFunTalk 和一個數據人的自留地的邀請,今天和大家分享的主題是用戶畫像的場景與技術實現方案。主要分三大部分:

01

常見應用場景

1. 畫像常見的應用場景

不同行業業務屬性不同,能採集到的數據源也不同,對畫像的應用場景有不同的需求,下面梳理互聯網 TOC、電商和安防等行業的畫像應用場景,提供畫像應用思路。

常見的 360 全息畫像,就是給一個人打完全部標籤之後,輸入 ID 可以返回這個人的全部標籤,看到這個人的全息畫像,然後基於標籤做個性化內容推送和消息推送,以及提供實時管控預警、專項場景分析。比如我們常見的事件分析、漏斗分析等數據分析模型,其實都是基於標籤和行爲數據,把數據模型產品化之後做成的特定場景分析,提供個性化的運營服務支持。

不同行業有不同側重點,主要源於不同行業採集到的數據源不同、不同行業的應用場景不一樣。

上面講的比較概念化,下面詳細講解幾個具體場景。

① 互聯網 TOC——微信場景(1)

② 互聯網 TOC——微信場景(2)

基於羣、基於個人的個性化 SOP 推送包括先給人或者給社羣打標籤。創建任務給不同標籤的人或者社羣推送不同的個性化內容。比如基於一些標籤創建某些定時任務,給某一批標籤的人或某一批標籤的羣做定時推送,維護整個社羣的活躍程度,以及促進用戶在不同階段的轉化。

這裏截圖了某 SCRM 廠商的功能宣傳頁,我們都知道 CRM 是客戶關係管理,SCRM 就是 Social CRM。

國內 SCRM 基本都是基於企業微信場景做的功能,常見場景:前期基於渠道活碼、裂變獲客、抽獎引流、自動標籤、自動回覆等的引流工作;後期基於標籤、基於來源渠道,做定製化的高效溝通;高效溝通完成之後,SCRM 去做智能化的定向營銷,比如 SOP 定向營銷、個性化的羣聊推送、個性化朋友圈。

在電商,零售,教育培訓等不同行業,都有基於微信場景的 SCRM 產品做一些行業的東西。這種也是基於用戶畫像、用戶標籤做的一種應用,這種應用的數據量級比較輕,基於單機的應用就可以做後臺的數據處理過程,這種小數據也是跨站的一種重要的組成部分,也有很廣闊的應用場景,我們日常接收到的一些快銷產品的短信,很多也是基於輕量級的 SCRM 場景去實現功能。

③ 電商場景

電商場景包括如下幾種:

④ 安防場景

安防場景能採集到的數據源非常多,包括物聯網和信息網的數據。主要用途是安防管控抓捕壞人,或者預防潛在的壞人做壞事。比如我們近期看到的抓捕犯罪分子新聞,基本是基於人臉識別來識別,然後再和後臺預警管控的名單做實時數據比對校驗,當比對相似度大於某個閾值時會觸發預警,後續視情況進行人爲干預。

這種安防場景在我們生活中有很多,比如識別不當言論去管控潛在的風險犯罪分子,以及去識別犯罪分子駕駛的車輛。人臉的面部識別、基於車牌號的識別其實都類似,都可以基於潛在風險的身份信息去做預警管控。

2. 關於畫像場景的一些思考

① 畫像場景總結起來,包括:

② 一直在 toC 類型的互聯網公司從事大數據類的工作,接觸到的用戶量或行爲日誌數據都是大幾千萬、幾億、幾十億、百億規模的數據處理,用到的技術棧也是 hive、spark、hbase、es、clickhouse 這些梳理大量數據的開源工具。但不是隻有大數據才能做畫像。

③ 最近在研究基於微信生態的 SCRM 類產品時發現,這類產品處理的數據量很小,不需要很重的大數據生態組件,但同樣可以實現基於特定場景 / 生態下的客戶營銷管理,同樣有廣闊的應用市場。對接淘寶、京東等商家後臺數據提供 CRM 功能的廠商也是,在畫像這塊處理的數據量有的用不上大數據組件。

02

畫像產品功能

畫像產品功能主要包括標籤的元數據管理、單用戶畫像、人羣篩選、人羣分析等。

1. 標籤的元數據管理

元數據管理來說,產品設計形態上可能會有各有不同,基於用戶屬性、用戶行爲,來做 123 級目錄分類的標籤元數據管理。

在元數據詳情頁可以查看標籤的源數據信息、標籤每天的產出量、標籤在所屬大類下的覆蓋率等。

在元數據編輯頁面可以對目前平臺上的標籤信息進行增刪等編輯。

2. 單用戶畫像

單用戶畫像,我們給每個人打上標籤後,在運營時或通過接口形式輸入用戶 ID,可查詢到這個人的全量標籤。

應用場景大致兩種:一種是分析場景,即分析師 / 業務人員基於一個或某幾個用戶 ID 做具體的查詢分析,這種通常是公司內部業務後臺作爲分析自用;另一種是客戶端接口調用,即通過線上服務接口請求方式傳入用戶 ID 查詢標籤,這涉及到高併發。這兩種應用場景,對數據服務能力要去是不一樣的,前者不涉及併發,後者涉及高併發,需要單獨部署兩套。

3. 人羣圈選

基於標籤組合及標籤的規則定義進行人羣圈選,即基於維護的標籤元數據信息、組合標籤及條件篩選、即席查詢符合特徵覆蓋到的人羣數量、保存查詢條件下用於下階段的運營推送。

4. 人羣分析

人羣分析:可以從多個維度透視分析人羣特徵。分析維度可以通過預製設定來自動生成分析報表,也可以自主篩選。選擇分析人羣、選擇分析的維度、分析的結果,可以進一步查看對應的用戶列表和標籤詳情。

5. 行爲分析

行爲分析模型是基於分析場景對數據的抽象。例如常見的留存分析、事件分析、分佈分析、漏斗分析等等,本質上是基於用戶行爲日誌 + 用戶屬性數據,來對用戶從多個分析維度進行分析。直白說就是將分析師常寫的分析 SQL 固化成產品和數據模型來實現,省去人工介入的時間。

現階段還沒有做行爲日誌的採集,一方面需要把日誌這塊缺漏補起來,另一方面 TOB 的行爲分析模型和互聯網 TOC 的這些分析模型也不盡相同,對於 TOB 經常需要做哪些分析還需要分析師整理提煉出來,再把常用到的分析固化成產品。

6. 基於標籤的 SOP

基於標籤的 SOP 是標準化運營流程,例如 SOP 在 SCRM 產品的場景中,基於企業微信給微信用戶打的標籤,通過設置給這些標籤用戶制定的運營策略來實現自動推送消息。

03

技術實現方案

1. 畫像系統整體數據流程

畫像系統中最重要的環節除了理清應用場景外,就是要理清整個系統的數據流向。

從項目全貌來說,我們首先是收集日誌和屬性數據,從線上業務庫抽取業務數據、或從日誌服務器抽取日誌數據,把抽取的數據放到數據倉庫裏。然後基於收倉的數據打標籤、建模和行爲主題的寬表建立。數據倉庫層面一般分多層,比如 ods 做基礎標籤,dws 層做直接推送到服務層的數據。

業務數據庫接入的數據、爬蟲外部抓取的數據都放在數倉的 ods 層。基於 ods 層數據圍繞應用場景進行數據建模後,把數據模型結果寫入到 dws 層,然後推送到各服務層需要調用的數據庫,以備線上 OLAP 分析、接口服務的調用。

2. 畫像系統的藍圖

畫像系統的技術藍圖包括標籤規劃、數據開發、應用場景等。畫像系統最終上線後,是一套完整的數據模型和應用流程。後續新增加的標籤或應用場景可以在現有的框架內增加流轉起來。

3. ETL 調度模型示例

ETL 調度模型包括標籤的加工計算、數據標籤的校驗、人羣計算、跑一些分析寬表。跑完數據模型後,推薦到線上服務層,比如 Redise、Clickhouse、ES ,分到服務層做服務的調用,包括站內的服務調用以及 TOC 的客戶端服務調用。

站內的服務調用即公司內部的運營或產品人員用於分析、用於營銷;TOC 的客戶端服務調用則是瀏覽頁面點擊時產生請求,客戶端調用涉及到高併發的場景,需要單獨處理接口服務。

4. 技術棧劃分

畫像系統技術主要包括大數據 + 應用服務。大數據從存儲類型、開發語言、開發內容來了解;應用服務從技術選型與框架、開發內容來了解。

5. 技術棧難點

技術棧難點分兩塊來說明:

04

精彩問答

Q:諮詢用戶畫像跟個人信息保護、數據安全方面的問題,在做技術底層架構的時候,數據安全有些什麼措施?

A:就數據安全來說,在採集數據上,不是特別涉密、涉及敏感信息的數據會進行採集。但在標籤應用查看權限上,技術上通過接口實現不同權限來控制。比如不同用戶分組對應不同的權限,可以查看分組下對應的標籤,通過這種方式控制內部的數據安全。

Q:公司已有推薦系統且有標籤,公司還想建設標籤畫像中臺。想諮詢中臺標籤畫像和標籤系統的標籤之間的關係應該是什麼樣的?

A:這個問題可能是侷限於公司內部的問題,不是通用性的問題。可能是有的公司比較大,不同的部門牽頭做一套自己東西,做的東西有衝突了。

Q:從最初的建立標籤體系,比如第二級標籤分組,除了梳理行業的競品、客戶的實際業務情況,還有沒有其他維度或常見的體系方法論?

A:一般是基於自己公司的業務場景去梳理指標體系。梳理標籤體系,一般由各個業務部門人員提需求,以及產品經理出需求。在開發過程中,根據使用情況不斷地做迭代。現在市面上也有專門講標籤類目體系的書,專門講如何面向業務去梳理標籤體系。

Q:對於離線跟實時的標籤,應該如何合理的處理?實時標籤應該怎麼做?

A:大部分場景基本 90% 多都是基於離線標籤去做。實時標籤是給用戶推送一些實時的東西,但可能不一定基於標籤的方式去做。就離線標籤來說,我們給用戶打上標籤,然後再去做一些篩選及推送;實時場景則可能直接通過任務計算好了,並把計算出來的這批用戶推送到對應的地方供調用。

今天的分享就到這裏,謝謝大家。

分享嘉賓:

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/SMK5PWJ3PQ10YkkaxidERA