終於有人把用戶畫像的流程、方法講明白了

作者:馬海平 於俊 呂昕 向海

來源:大數據 DT(ID:hzdashuju)

01 用戶畫像概述

1. 什麼是用戶畫像

現代交互設計之父 Alan Cooper 很早就提出了 Persona 的概念:Persona 是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型,用於產品需求挖掘與交互設計。

通過調研和問卷去了解用戶,根據他們的目標、行爲和觀點的差異,將他們區分爲不同的類型,然後從每種類型中抽取出典型特徵,賦予名字、照片、人口統計學要素、場景等描述,就形成了一個 Persona。Persona 就是最早對用戶畫像的定義,隨着時代的發展,用戶畫像早已不再侷限於早期的這些維度,但用戶畫像的核心依然是真實用戶的虛擬化表示。

在大數據時代,用戶畫像尤其重要。我們通過一些手段,給用戶的習慣、行爲、屬性貼上一系列標籤,抽象出一個用戶的全貌,爲廣告推薦、內容分發、活動營銷等諸多互聯網業務提供了可能性。它是計算廣告、個性化推薦、智能營銷等大數據技術的基礎,毫不誇張地說,用戶畫像是大數據業務和技術的基石。

用戶畫像的核心工作就是給用戶打標籤,標籤通常是人爲規定的高度精煉的特徵標識,如年齡、性別、地域、興趣等。由這些標籤集合能抽象出一個用戶的信息全貌,如圖 10-1 所示是某個用戶的標籤集合,每個標籤分別描述了該用戶的一個維度,各個維度相互聯繫,共同構成對用戶的一個整體描述。

▲圖 10-1 用戶標籤集合

2. 爲什麼需要用戶畫像

Cooper 最初建立 Persona 的目的是讓團隊成員將產品設計的焦點放在目標用戶的動機和行爲上,從而避免產品設計人員草率地代表用戶。產品設計人員經常不自覺地把自己當作用戶代表,根據自己的需求設計產品,導致無法抓住實際用戶的需求。往往對產品做了很多功能的升級,用戶卻覺得體驗變差了。

在大數據領域,用戶畫像的作用遠不止於此。如圖 10-2 所示,用戶的行爲數據無法直接用於數據分析和模型訓練,我們也無法從用戶的行爲日誌中直接獲取有用的信息。而將用戶的行爲數據標籤化以後,我們對用戶就有了一個直觀的認識。同時計算機也能夠理解用戶,將用戶的行爲信息用於個性化推薦、個性化搜索、廣告精準投放和智能營銷等領域。

▲圖 10-2 用戶標籤化

對於一個產品,尤其是互聯網產品,建立完善的用戶畫像體系,有着重大的戰略意義。基於用戶畫像能夠構建一套分析平臺,**用於產品定位、競品分析、營收分析等,爲產品的方向與決策提供數據支持和事實依據。**在產品的運營和優化中,根據用戶畫像能夠深入用戶需求,從而設計出更適合用戶的產品,提升用戶體驗。

02 用戶畫像流程

用戶畫像的核心工作就是給用戶打 “標籤”,構建用戶畫像的第一步就是搞清楚需要構建什麼樣的標籤,而構建什麼樣的標籤是由業務需求和數據的實際情況決定的。下面介紹構建用戶畫像的整體流程和一些常用的標籤體系。

1. 整體流程

對構建用戶畫像的方法進行總結歸納,發現用戶畫像的構建一般可以分爲目標分析、標籤體系構建、畫像構建三步,下面詳細介紹每一步的工作。

1)目標分析

用戶畫像構建的目的不盡相同,有的是實現精準營銷,增加產品銷量;有的是進行產品改進,提升用戶體驗。明確用戶畫像的目標是構建用戶畫像的第一步,也是設計標籤體系的基礎。

目標分析一般可以分爲業務目標分析和可用數據分析兩步。目標分析的結果有兩個:

畫像的目標確立要建立在對數據深入分析的基礎上,脫離數據制定的畫像目標是沒有意義的。

2)標籤體系構建

分析完已有數據和畫像目標之後,還不能直接進行畫像建模工作,在畫像建模開始之前需要先進行標籤體系的制定。對於標籤體系的制定,既需要業務知識,也需要大數據知識,因此在制定標籤體系時,最好有本領域的專家和大數據工程師共同參與。

在制定標籤體系時,可以參考業界的標籤體系,尤其是同行業的標籤體系。用業界已有的成熟方案解決目標業務問題,不僅可以擴充思路,技術可行性也會比較高。

此外,需要明確的一點是:**標籤體系不是一成不變的,隨着業務的發展,標籤體系也會發生變化。**例如電商行業的用戶標籤,最初只需要消費偏好標籤,GPS 標籤既難以刻畫也沒有使用場景。隨着智能手機的普及,GPS 數據變得易於獲取,而且線下營銷也越來越注重場景化,因此 GPS 標籤也有了構建的意義。

3)畫像構建

基於用戶基礎數據,根據構建好的標籤體系,就可以進行畫像構建的工作了。用戶標籤的刻畫是一個長期的工作,不可能一步到位,需要不斷地擴充和優化。一次性構建中如果數據維度過多,可能會有目標不明確、需求相互衝突、構建效率低等問題,因此在構建過程中建議將項目進行分期,每一期只構建某一類標籤。

畫像構建中用到的技術有數據統計、機器學習和自然語言處理技術(NLP)等,如圖 10-3 所示。具體的畫像構建方法會在本文後面的部分詳細介紹。

▲圖 10-3 用戶畫像的構建技術

2. 標籤體系

目前主流的標籤體系都是層次化的,如圖 10-4 所示。首先標籤分爲幾個大類,每個大類再進行逐層細分。在構建標籤時,只需要構建最下層的標籤,就能夠映射出上面兩級標籤。

上層標籤都是抽象的標籤集合,一般沒有實用意義,只有統計意義。例如我們可以統計有人口屬性標籤的用戶比例,但用戶有人口屬性標籤,這本身對廣告投放沒有任何意義。

▲圖 10-4 互聯網大數據領域常用標籤體系

用於廣告投放和精準營銷的一般是底層標籤,對於底層標籤有兩個要求:一個是每個標籤只能表示一種含義,避免標籤之間的重複和衝突,便於計算機處理;另一個是標籤必須有一定的語義,方便相關人員理解每個標籤的含義。

此外,標籤的粒度也是需要注意的,標籤粒度太粗會沒有區分度,粒度過細會導致標籤體系太過複雜而不具有通用性。

下文列舉了各個大類常見的底層標籤。

最後介紹一下構建各類標籤的優先級。對此需要綜合考慮業務需求、構建難易程度等,業務需求各有不同,這裏介紹的優先級排序方法主要依據構建的難易程度和各類標籤的依存關係,優先級如圖 10-5 所示。

▲圖 10-5 各類標籤的構建優先級

1)事實標籤

基於原始數據首先構建的是事實標籤,事實標籤可以從數據庫直接獲取(如註冊信息),或通過簡單的統計得到。這類標籤構建難度低、實際含義明確,且部分標籤可用作後續標籤挖掘的基礎特徵(如產品購買次數可用來作爲用戶購物偏好的輸入特徵數據)。

事實標籤的構造過程,也是對數據加深理解的過程。對數據進行統計的同時,不僅完成了數據的處理與加工,也對數據的分佈有了一定的瞭解,爲高級標籤的構造做好了準備。

2)模型標籤

模型標籤是標籤體系的核心,也是用戶畫像中工作量最大的部分,**大多數用戶標籤的核心都是模型標籤。**模型標籤的構建大多需要用到機器學習和自然語言處理技術,下文介紹的標籤構建主要指的是模型標籤構建,具體的構造算法會在下文中詳細介紹。

3)高級標籤

最後構造的是高級標籤,高級標籤是基於事實標籤和模型標籤進行統計建模得出的,它的構造多與實際的業務指標緊密聯繫。只有完成基礎標籤的構建,才能夠構造高級標籤。構建高級標籤使用的模型,可以是簡單的數據統計模型,也可以是複雜的機器學習模型。

03 構建用戶畫像

我們把標籤分爲三類,這三類標籤有較大的差異,構建時所用技術的差別也很大。

▲圖 10-6 三類標籤屬性

1. 人口屬性畫像

人口屬性包括年齡、性別、學歷、人生階段、收入水平、消費水平、所屬行業等。**這些標籤基本是穩定的,構建一次可以很長一段時間不用更新,標籤的有效期都在一個月以上。**同時標籤體系的劃分也比較固定,表 10-2 是中國無線營銷聯盟對人口屬性的一個劃分。

大部分主流的人口屬性標籤都和這個體系類似,有些在分段上有一些區別。

▼表 10-2 人口標籤

很多產品(如 QQ、Facebook 等)都會引導用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數的人口屬性,但**完整填寫個人信息的用戶只佔很少一部分。**對於無社交屬性的產品(如輸入法、團購 App、視頻網站等),用戶信息的填充率非常低,有的甚至不足 5%。

在這種情況下,一般會用填寫了信息的用戶作爲樣本,把用戶的行爲數據作爲特徵訓練模型,對無標籤的用戶進行人口屬性的預測。這種模型把有標籤用戶的標籤傳給與他行爲相似的用戶,可以認爲是對人羣進行了標籤擴散,因此常被稱爲標籤擴散模型。

下面使用視頻網站性別年齡畫像的例子來說明標籤擴散模型是如何構建的。

某個視頻網站希望瞭解自己的用戶組成,於是對用戶的性別進行畫像。通過數據統計,有大約 30% 的用戶在註冊時填寫了個人信息,將這 30% 的用戶作爲訓練集,以構建全量用戶的性別畫像,所用數據如表 10-3 所示。

▼表 10-3 視頻網站用戶數據

下面來構建特徵。通過分析發現男性和女性對於影片的偏好是有差別的,因此使用用戶觀看的影片列表預測用戶性別有一定的可行性。此外,還可以考慮用戶的觀看時間、瀏覽器、觀看時長等,爲了簡化,這裏只使用用戶觀看的影片特徵。

由於觀看影片特徵是稀疏特徵,所以可以調用 MLlib,使用 LR、線性 SVM 等模型進行訓練。考慮到註冊用戶填寫的用戶信息的準確性不高,所以可以從 30% 的樣本集中提取準確性較高的部分(如用戶信息填寫較完備的)用於訓練,因此整體的訓練流程如圖 10-7 所示。

對於預測性別這樣的二分類模型,如果行爲的區分度較好,一般準確率和覆蓋率都可以達到 70% 左右。

▲圖 10-7 訓練流程

對於人口屬性標籤,只要有一定的樣本標籤數據,並找到能夠區分標籤類別的用戶行爲特徵,就可以構建標籤擴散模型。其中使用的技術方法主要是機器學習中的分類技術,常用的模型有 LR、FM、SVM、GBDT 等。

2. 興趣畫像

興趣畫像是互聯網領域中使用最廣泛的畫像,互聯網廣告、個性化推薦、精準營銷等領域最核心的標籤都是興趣標籤。興趣畫像主要是從用戶海量的行爲日誌中進行核心信息抽取、標籤化和統計,因此在構建用戶興趣畫像之前需要先對用戶有行爲的內容進行內容建模。

內容建模需要注意粒度,過細的粒度會導致標籤沒有泛化能力和使用價值,過粗的粒度會導致標籤沒有區分度。

爲了保證興趣畫像既有一定的準確性又有較好的泛化性,我們會構建層次化的興趣標籤體系,其中同時用幾個粒度的標籤去匹配用戶興趣,既保證了標籤的準確性,又保證了標籤的泛化性。下面以用戶的新聞興趣畫像舉例,介紹如何構建層次化的興趣標籤。

新聞興趣畫像的處理難度要比購物興趣畫像困難,購物標籤體系基本固定,如圖 10-8 所示,京東頁面已經有成熟的三級類目體系。

▲圖 10-8 三級類目體系

1)內容建模

新聞數據本身是非結構化的,首先需要人工構建一個層次化的標籤體系。考慮如圖 10-9 所示的一篇新聞,看看哪些內容可以表示用戶的興趣。

▲圖 10-9 新聞例子

首先,這是一篇體育新聞,體育這個新聞分類可以表示用戶興趣,但是這個標籤太粗了,因爲用戶可能只對足球感興趣,所以體育這個標籤就顯得不夠準確。

其次,可以使用新聞中的關鍵詞,尤其是裏面的專有名詞(人名、機構名),如 “桑切斯”“阿森納”“厄齊爾”,這些詞也表示了用戶的興趣。關鍵詞的主要問題在於粒度太細,如果某天的新聞裏沒有這些關鍵詞,就無法給用戶推薦內容。

最後,我們希望有一箇中間粒度的標籤,**既有一定的準確度,又有一定的泛化能力。**於是我們嘗試對關鍵詞進行聚類,把一類關鍵詞當成一個標籤,或者拆分一個分類下的新聞,生成像 “足球” 這種粒度介於關鍵詞和分類之間的主題標籤。我們可以使用文本主題聚類完成主題標籤的構建。

至此,就完成了對新聞內容從粗到細的 “分類 - 主題 - 關鍵詞” 三層標籤體系的內容建模,新聞的三層標籤如表 10-4 所示。

▼表 10-4  三層標籤體系

可能讀者會有疑問,既然主題的準確度和覆蓋率都不錯,我們只使用主題不就可以了嗎?爲什麼還要構建分類和關鍵詞這兩層標籤呢?這麼做是爲了針對用戶進行儘可能精確和全面的內容推薦。

當用戶的關鍵詞命中新聞時,顯然能夠給用戶更準確的推薦,這時就不需要再使用主題標籤;而對於比較小衆的主題(如體育類的冰上運動主題),若當天沒有新聞覆蓋,就可以根據分類標籤進行推薦。層次標籤兼顧了刻畫用戶興趣的覆蓋率和準確性。

2)興趣衰減

在完成內容建模以後,就可以根據用戶點擊,計算用戶對分類、主題、關鍵詞的興趣,得到用戶興趣標籤的權重。最簡單的計數方法是,用戶點擊一篇新聞,就把用戶對該篇新聞的所有標籤興趣值上加 1,用戶對每個詞的興趣計算使用如下的公式:

scorei+1=scorei+ C×weight

其中,詞在這次瀏覽的新聞中出現,則 C=1,否則 C=0, weight 表示詞在這篇新聞中的權重。

這樣做有兩個問題:一個是用戶的興趣累加是線性的,數值會非常大,老的興趣權重會特別高;另一個是用戶的興趣有很強的時效性,對一篇新聞昨天的點擊要比一個月之前的點擊重要的多,線性疊加無法突出用戶的近期興趣。

爲了解決這個問題,需要對用戶興趣得分進行衰減,可使用如下的方法對興趣得分進行次數衰減和時間衰減。

次數衰減的公式如下:

scorei+1=α×scorei+ C×weight, 0<α<1

其中,α是衰減因子,每次都對上一次的分數做衰減,最終得分會收斂到一個穩定值,α取 0.9 時,得分會無限接近 10。

時間衰減的公式如下:

scoreday+1=scoreday×β, 0<β<1

它表示根據時間對興趣進行衰減,**這樣做可以保證時間較早期的興趣會在一段時間以後變得非常弱,同時近期的興趣會有更大的權重。**根據用戶興趣變化的速度、用戶活躍度等因素,也可以對興趣進行周級別、月級別或小時級別的衰減。

3. 地理位置畫像

地理位置畫像一般分爲兩部分:一部分是常駐地畫像;一部分是 GPS 畫像。這兩類畫像的差別很大,常駐地畫像比較容易構造且標籤比較穩定,GPS 畫像需要實時更新。

常駐地包括國家、省份、城市三級,一般只細化到城市粒度。在常駐地挖掘中,對用戶的 IP 地址進行解析,並對應到相應的城市,再對用戶 IP 出現的城市進行統計就可以得到常駐城市標籤。用戶的常駐城市標籤不僅可以用來統計各個地域的用戶分佈,還可以根據用戶在各個城市之間的出行軌跡識別出差人羣、旅遊人羣等。

GPS 數據一般從手機端收集,但很多手機 App 沒有獲取用戶 GPS 信息的權限。能夠獲取用戶 GPS 信息的主要是百度地圖、滴滴打車等出行導航類 App,此外收集到的用戶 GPS 數據比較稀疏。

百度地圖使用該方法並結合時間段數據,構建了用戶公司和家的 GPS 標籤。此外百度地圖還基於 GPS 信息,統計各條路上的車流量,進行路況分析,圖 10-10 所示是北京市某天的實時路況圖,紅色表示擁堵線路。

▲圖 10-10 北京的實時路況圖

04 用戶畫像評估和使用

人口屬性畫像的相關指標比較容易評估,而興趣畫像的標籤比較模糊,所以人爲評估比較困難,對於興趣畫像的常用評估方法是設計小流量的 A/B 測試進行驗證。

可以篩選一部分打了標籤的用戶,給這部分用戶進行和標籤相關的推送,看他們對相關內容是否有更好的反饋。例如,在新聞推薦中,我們給用戶構建了興趣畫像,從體育類興趣用戶中選取一小批用戶,給他們推送體育類新聞,如果這批用戶對新聞的點擊率和閱讀時長明顯高於平均水平,就說明標籤是有效的。

1. 效果評估

評估使用用戶畫像的效果最直接的方法就是,看其提升了多少實際業務,如在互聯網廣告投放中,用戶畫像的使用效果主要是看它提升了多少點擊率和收入,在精準營銷過程中,主要是看使用用戶畫像後銷量提升了多少等。

但是如果把一個沒有經過效果評估的模型直接用在線上,風險是很大的,因此我們需要一些在上線前可計算的指標來衡量用戶畫像的質量。

用戶畫像的評估指標主要是準確率、覆蓋率、時效性等。(篇幅有限,這裏不詳細介紹,有需要的同學可以看《Spark 機器學習進階實戰》一書第 10.4.1 節)

2. 用戶畫像使用

構建好用戶畫像並做了評估之後,就可以在業務中使用它。對此,一般需要一個可視化平臺,對標籤進行查看和檢索。用戶畫像的可視化過程中,一般使用餅圖、柱狀圖等對標籤的覆蓋人數、覆蓋比例等指標做形象的展示,如圖 10-11 所示是用戶畫像的一個可視化界面。

▲圖 10-11 用戶畫像的可視化界面

此外,對於所構建的用戶畫像,還可以使用不同維度的標籤,進行高級的組合分析,產出高質量的分析報告。用戶畫像可以應用在智能營銷、計算廣告、個性化推薦等領域,具體的使用方法與應用領域緊密結合,在此不再詳細介紹。

關於作者:馬海平,科大訊飛大數據研究院研究主管,中國科學與技術大學計算機技術博士,專注數據挖掘和人工智能算法的研究,及其在計算廣告和個性化教育等方向的落地應用。

於俊,科大訊飛大數據專家,專注大數據和人工智能應用方案設計、基於 Spark 的大數據分析和價值挖掘,在大數據算法工程化實現方面具有豐富經驗。

呂昕,科大訊飛大數據專家,專注大數據和人工智能技術在消費者業務中的應用、基於 Spark 的大數據分析和算法建模,在用戶畫像、內容推薦和精準營銷領域有豐富的實踐。

向海,邂智科技算法負責人,前科大訊飛大數據專家。專注 Spark 機器學習在智能客服中的應用,在 NLP 與對話機器人應用方面有豐富經驗。

本文摘編自《Spark 機器學習進階實戰》,經出版方授權發佈。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/SpeOW39h5Fv-dZOcAf8zlA