阿里-網易-汽車之家畫像標籤體系
1
阿里
爲打破數據孤島,創造更大的數據價值,阿里設計了 OneEntity 來提供全域數據與服務。OneEntity 體系主要包含統一實體、全域標籤、全域關係、全域行爲 4 大類。
01
標籤分****類
其中 GProfile 全域標籤的分類,將 “人” 的立體刻畫劃分爲 “人的核心屬性” 和“人的嚮往與需求”2 大部分,具體包含 4 大類:
人的核心屬性,可分爲自然屬性、社會屬性。
-
自然屬性:是指人的肉體存在及其特徵,是人自出生後自然存在的,一般不會因人爲因素髮生較大的改變。例如 “性別”“生肖”“年齡”“身高”“體重” 等。
-
社會屬性:指人在實踐活動基礎上產生的一切社會關係的總和。人一旦進入社會就會產生社會屬性。例如經濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。
人的嚮往與需求,可分爲興趣偏好、行爲消費偏好。
-
興趣偏好:是人堆非物化對象的內在心理嚮往與外在行爲表達,是一種法子內心的本能喜好,與物質無必然關係。例如渴望愛情、需要安全感、討厭髒亂環境等。
-
行爲消費偏好:是人對物化對象的需求與外在行爲表達,涉及各行業,與物質世界存在千絲萬縷的聯繫。例如母嬰行業偏好、美妝行業偏好、洗護行業偏好、家裝行業偏好等。
在以上四大類的基礎上,我們又嘗試根據不同的業務形態進一步細分二級、三級分類。
02
標籤萃取
標籤的萃取工作包含:數據採集;清洗,去噪聲並統一;反覆試用並確定最佳算法及模型;爲模型選擇計算因子並對模型中的每一個計算因子調配權重;產出標籤質量評估報告以輔助驗收。
我們隨機抽查了若干個在用的標籤,預估工作量和工作週期,一個有價值的標籤的萃取,平均耗時 2 周。
慢的主要原因,一是由於萃取流程複雜,每個標籤萃取都依賴底層的基礎數據,而較少依賴上一層彙總的數據中間層數據;二是大量重複的人力,對應的標籤萃取邏輯時可以複用的,包含算法的選擇、模型訓練和計算因子的加權等,但由於不同人來做,造成了很多重複工作。
標籤萃取過程複雜,那有什麼可以參考的流程呢?
首先,數據源層面:建設一套完整的數據源,以 OneEntity 體系爲核心,將 OneEntity 相關實體及其行爲全部串聯起來,與存量的標籤一起作爲數據源。
其次,標籤計算層面:將標籤萃取邏輯沉澱爲 2 種,分別對應到偏好類標籤和分類預測類標籤的工具型產品的生產過程中,包含計算因子、權重等業務規則、數據樣本選擇、模型與算法選擇等。
最後,標籤監測層面:沉澱質量評估報告和生產監測、上線等管理流程。
當一整套工具型產品上線之後,批量生產十幾個同類型標籤只需要 2 天左右,這是因爲在補足數據源、確定業務規則、選擇數據樣本、選擇算法與模型的過程中,減少了大量的代碼開發與模型訓練的工作。
在這個過程中,參與的角色也發生了變化,從原本的以數據產品經理、數倉工程師、數據科學家爲主導,轉變爲對業務更爲熟悉的業務人員、數據分析師爲主導。
2
網易
網易大數據融合用戶娛樂、電商購物、教育、新聞資訊、通訊等多行業 10 + 產品線,構建起全域用戶畫像數據,目前總標籤 1000+,ID 量 URS、phone、idfa、IMEI、oaid 等均達到憶級。
01
標籤分****類
- 基礎標籤:
性別、年齡、教育背景、生活習慣(早起晚起)、地理位置(POI 信息)、職業狀況、經濟情況(有車有房)、設備信息(手機、運營商等)、會員信息(會員等級)、衍生信息。
其中衍生標籤,如評估是否已婚,在原由標籤體系下沒有此類標籤,但可通過多個標籤進行組合生成新的標籤,包含是否有小孩、30 歲等條件組合。
- 行爲標籤
包含地域、廣告、搜過、播放、點擊、評論、關注、收藏、購買等維度。
- 偏好標籤
包含出行購物、手機數碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、遊戲競技、動漫影視、明星藝人等維度
- 預測標籤
包含利用算法進行預測生成的標籤,包含是否出行、是否買車等標籤。
注意:
-
標籤的枚舉值十分重要,業務分析過程中很容易出現枚舉值的偏差,不符合實際業務邏輯
-
注意標籤之間的衝突,如年齡 15 歲,學歷卻是博士或者有小孩
02
標籤計算
預測類標籤案例:性別,主要包含三種方案:
-
標籤傳播:根據用戶在各個業務場景,如母嬰商品點擊行爲,進行 item 標記,構建 user-item 的興趣網絡進行 Graph Embedding,最後進行分類,預測用戶的性別。
-
語義分析:利用 NLP 算法對用戶暱稱進行語義分析
-
自行填寫:利用業務屬性自行填寫的內容進行判斷,此處需對數據質量進行過濾,排除如生日爲 1990-01-01 的參數異常值信息。
基於上述三類算法特徵結果集,對模型進行融合,然後對用戶的性別進行預測,其準確率在 0.6 以上。
注意:需要突破的地方在於特徵的稀疏性,因爲 ID-mapping 打通後,數據覆蓋率僅 20% 左右,嚴重影響了模型的整體效果。
3
汽車之家
用戶畫像的構建就是把用戶標籤分列到不同的類裏面,這些類都是什麼,彼此之間的聯繫,就構成了標籤體系。
01
按用途分類
- 人口屬性:用戶自然屬性、用戶會員、用戶所屬年代、用戶價值登記、是否增換購用戶、用戶分羣、UVN-B 用戶分羣、用戶分層、用戶流失預警
-
網絡屬性:用戶 APP 設備信息、用戶 PC 設備信息、用戶活躍時段、用戶平臺偏好、用戶活躍類型
-
內容興趣偏好:業務類型偏好、內容分類標籤、用戶關注作者偏好、用戶產品偏好、用戶顯式負反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目
-
車興趣偏好 :用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購車意向、用戶新舊偏好、用戶購車階段、用戶有車標籤、用戶興趣集中度、用戶能源偏好、用戶生產方式偏好
-
金融畫像:分期購車意向度、用戶購買力、二手車用戶購買力、用戶汽車價格偏好、用戶經濟屬性、增換購用戶預測線索
-
場景畫像:用戶地理位置
02
按統計方式分類
- 統計類標籤
統計類標籤,通過業務規則,將業務問題轉化爲數據口徑實現。如收藏列表、 搜索關鍵詞、保險到期時間、是否下過線索、30 天內訪問 xx 次等。
- 興趣類標籤
興趣類標籤,基於興趣遷移模型構建用戶標籤。綜合考慮特徵、特徵權重、距今時間、行爲次數等因素,用戶興趣標籤構建公式如下:
用戶興趣標籤 = 行爲類型權重 * 時間衰減 * 行爲次數
-
特徵:需要結合業務選擇,如瀏覽、搜索、線索、對比、互動、點擊、有車等行爲。
-
權重:用戶在平臺上發生的行爲具體到用戶標籤層面有着不同的行爲權重,一般而言,行爲發生的成本越高,權重越大。可以由業務人員確定,也可以採用 TF-IDF 技術分析得出。
-
時間衰減:用戶行爲收時間的影響不斷衰減,距離現在越遠,對用戶興趣的影響越低,這裏採用牛頓冷卻定律的思想擬合衰減係數,衰減週期結合業務制定。
-
行爲次數:在固定時間週期內行爲發生的次數越多,興趣傾向越重。
- 模型類標籤
基於機器學習方法進行數據建模預測用戶的標籤,這類標籤在標籤體系中佔比較少,其實現難度高,開發成本高。
例如:
-
是否有車:基於 RF+LR 模型實現
-
常駐地:基於 GPS 聚類獲取,採用 DBSCAN
-
購車轉化:GBDT
-
用戶分羣:KMENAS 聚類產生
03
按時效分類
從數據時效上,可分爲離線畫像和實時畫像。離線與實時採用的構建思想相同,不同之處在於:
-
離線畫像:描述用戶長期的習慣;
-
實時畫像:描述用戶當下的興趣,會隨時間的改變而發生變更;
總結
各大公司的標籤分類不同,現市面上有三種常用的標籤分類方式,按用途分類,可分爲基礎信息、用戶行爲、業務偏好、場景標籤;按統計方式分類,可分爲事實類標籤、規則類標籤、預測類標籤;按時效分類,可分爲靜態標籤、動態標籤。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/F7d6f5mrMO0rBdJ7fnpBJg