推薦系統是如何找到相似用戶的？

作者：九羽

在《當推薦系統遇上用戶畫像：你的畫像是怎麼來的？》一文中，我們介紹了怎麼通過 TF-IDF 的方式得到用戶的畫像。而在本文中，我們來聊一下在搜索、推薦、計算廣告系統中 “畫像是怎麼用的**？相似用戶是怎麼被發現的？**”。

在互聯網商業應用中，許多廣告主在 “搜尋潛客” 時，都會遇到如難以識別高潛人羣、難於平衡成本與規模等問題。而在數字營銷的過程中，運營人員或者數據分析同學也是在根據已有的經驗，通過用戶畫像的方式，擴展與歷史轉化人羣相似的人羣。比如，通過性別、年齡等篩選出化妝品的受衆人羣等。顯然，這種方式有些粗糙。

那麼，有什麼方法可以優雅而有理有據的解決這個問題嗎？答案是肯定，不然我費勁巴拉的寫這篇文章幹嘛，躺着刷刷視頻不香嗎... 言歸正傳，相似人羣拓展（Lookalike）的工作機制是基於種子用戶畫像和社交關係鏈尋找出相似用戶。即，根據種子人羣的共有屬性進行自動化擴展，以擴大潛在用戶覆蓋面，提升營銷 / 廣告效果。

什麼是 Lookalike？

圖片引用來自參考資料 1

具體來講，相似人羣拓展（Lookalike）是基於種子用戶，通過用戶畫像、算法模型等找到與種子用戶更多擁有潛在關聯性的拓展技術。Lookalike 算法是計算廣告中的術語，不是單指某一種算法，而是一類方法的統稱，這類方法綜合運用多種技術，其目的就是爲了實現人羣包擴充。

** 舉個廣告的栗子**，對於一個化妝品類廣告主，需要對 100 萬人投放自己的廣告，但是根據經驗或者畫像只有 10 萬的人羣包，那麼如何選取這 100 萬，同時滿足人羣量級和轉化（盲目選擇可能存在無效用戶）兩個因素，就需要用到 Lookalike 相似人羣拓展技術了。比如，向品牌偏好、消費價格區間匹配的人羣進行投放等。

** 舉個數字營銷的栗子**，對於運營人員，需要將某一個節日活動向 100 萬用戶進行短信 / Push 發送，但根據畫像刷選之後，可能發現這波用戶已經被其他業務的運營發送過了 N 多次，最後剩下可以發送的用戶寥寥... 此時 Lookalike 相似人羣拓展的作用便來了。根據種子人羣（已有過的轉化人羣）的共有屬性進行自動化擴展，以擴大潛在用戶覆蓋面。對於拉新任務來說，誰用誰知道.... 啊~ 真香~

怎麼做 Lookalike？

圖片引用來自參考資料 1

Lookalike 相似人羣拓展方法主要有以下幾種方式，

利用用戶畫像進行顯式人羣拓展：根據種子用戶的標籤（地理、興趣、行爲、品牌偏好等），利用相同標籤找到目標人羣；
利用機器學習模型進行隱式人羣拓展：廣告主的種子用戶做爲正樣本，廣告平臺中有海量的非種子用戶，也有大量的廣告投放歷史數據可以做爲負樣本，訓練機器學習模型，然後用模型對所有候選對象進行篩選；
利用社交圖結構的相似人羣拓展：核心就是通過 Graph Embedding 的形式去得到相似的人羣。

同時，我們需要注意到的問題是，隨着流量不斷增大，相似人羣的聚焦性也必然逐步降低，尋找目標人羣的難度加大，致使非目標人羣（無效人羣，對轉化沒有幫助，但是會增加投放成本）的比例也隨着流量的增加而增加。而 Lookalike 技術通過大數據分析和複雜模型學習歸納高質量人羣的人口特徵，然後在更大的流量範圍內，尋找具有類似人口特徵的人，從而實現目標的轉化。

另外，做任何業務背景的問題，我們都需要關注其背後的可解釋性：雖然可以通過一系列的用戶畫像、機器學習技術拓展了一批用戶，但是拓展的途徑、人羣的行爲特徵等都需要一個直觀的解釋。比如擴展的人羣在哪些特徵或行爲上匹配種子用戶，而未被拓展的人羣，又是怎麼樣的？這不僅爲拓展提供了幫助，也爲 badcase 溯源問題提供了一套良好的方式方法。

工業界中的 Lookalike 應用

谷歌 Similar Audiences

Google 的 “Similar Audiences” 根據用戶近期的瀏覽和下載 APP 行爲，爲廣告主推薦拓展相似的人羣。谷歌廣告後臺會自動生成與你的網站訪問者或現有客戶興趣相似的用戶羣體，一般情況下，你設置了多少個再營銷相似羣體列表，就會生成多少個對應的相似人羣。

Similar Audience 不僅可以幫你查找到與你網站訪問者相似的人，並且還能幫你向這些特定人羣傳遞信息，爲你帶來高質量的潛在用戶，甚至直接轉化。例如，你開了一家保險公司，並且想推銷碎屏保險。通過 Remarketing 的使用，你可以將之前來過你網站並且查看過碎屏保險的人創建爲一個 List，然後在這個基礎上去尋找相似的受衆。

這樣一來，新的受衆和你之前 Remaketing Lists 裏面的人都是有着相同的行爲習慣，興趣，甚至購買傾向，從而轉化率大大提升。

Facebook Lookalike Audiences

Facebook 的 “Lookalike Audiences”，可以根據 Custom Audiences 所篩選出的用戶名單爲參考，再篩選出與其相似的人羣，讓廣告主可以將廣告投遞給此名單內的用戶。

通過 Facebook 像素插件，來記錄客戶在你網站的行爲，比如，加入購物車但未購買，像素會反饋給你信息，方便後期給客戶定向投放廣告。

同時相似羣體大致有以下情況：

與主頁互動，比如點贊，轉發，評論主頁等，用 messenger 發消息等等。
視頻觀看情況，比如說觀看你發佈的視頻時間播放時長等。

阿里達摩盤 DMP

阿里推出達摩盤（DMP）Lookalike 模型根據對店鋪或品牌最忠實的那批用戶（種子用戶），並通過 Lookalike 模型找到與這些種子用戶相似的人來增加店鋪的有效瀏覽和轉化。

騰訊社交 Lookalike

騰訊社交廣告團隊基於種子用戶畫像和關係鏈尋找相似用戶，即根據種子人羣的共有屬性進行自動化擴展，以擴大受衆覆蓋面，提升廣告效果。

例如，家庭、社會身份、地位、相關羣體等社會因素，文化、次文化等文化因素，以及行爲、動機、興趣等心理因素等都能形成相似人羣拓展 Lookalike 的篩選標準。以社交關係鏈爲基礎，騰訊社交廣告可以助力廣告主尋找相似線索、捕捉高潛客戶。

競賽中的 Lookalike

** 騰訊廣告算法大賽** 2018 年的賽題，題目如下：

相似人羣拓展（Lookalike）基於廣告主提供的一個種子人羣（又稱爲種子包），自動計算出與之相似的人羣（稱爲擴展人羣）。本題目將爲參賽選手提供幾百個種子人羣、海量候選人羣對應的用戶特徵，以及種子人羣對應的廣告特徵。出於業務數據安全保證的考慮，所有數據均爲脫敏處理後的數據。整個數據集分爲訓練集和測試集。訓練集中標定了人羣中屬於種子包的用戶與不屬於種子包的用戶（即正負樣本）。測試集將檢測參賽選手的算法能否準確標定測試集中的用戶是否屬於相應的種子包。訓練集和測試集所對應的種子包完全一致。初賽和複賽所提供的種子包除量級有所不同外，其他的設置均相同。

在特徵工程層面，總結一下魚和 jachin 的開源方案中的思路如下：

（1）原始 onehot 特徵，比如 aid，age，gender 等。

（2）向量特徵，比如 interest1，interest2，topic1，kw1 等

（3）向量長度統計特徵：interest1，interest2，interest5 的長度統計。

（4）uid 類的統計特徵，uid 的出現次數，uid 的正樣本次數，以及 uid 與 ad 特徵的組合出現次數，組合正樣本次數。

（5）uid 的序列特徵，比如 uid=1 時，總共出現了 5 次，序列爲 [-1,1,-1,-1,-1]。

（6）組合特徵：age 與 aid 的組合，gender 與 aid 的組合，interest1 與 aid 的組合，interest2 與 aid 的組合，topic1 與 topic2 的組合，LBS 與 kw1 的組合。

（7）五大類特徵，投放量（click）、投放比例（ratio）、轉化率（cvr）、特殊轉化率（CV_cvr）、多值長度（length），每類特徵基本都做了一維字段和二維組合字段的統計。值得注意的是轉化率利用預處理所得的分塊標籤獨立出一個分塊驗證集不加入統計，其餘分塊做 dropout 交叉統計，測試集則用全部訓練集數據進行統計。

（8）此外，我們發現一些多值字段的重要性很高，所以利用了 lightgbm 特徵重要性對 ct\marriage\interest 字段的稀疏編碼矩陣進行了提取，提取出排名前 20 的編碼特徵與其他單值特徵進行類似上述 cvr 的統計生成 CV_cvr 的統計，這組特徵和 cvr 的效果幾乎相當。

對於沒有看過賽題數據的同學，可能會看不懂以上的特徵構造，有興趣的話可以關注煉丹筆記後在後臺回覆 “2018 騰訊賽” 查看賽題詳細介紹。

參考資料

https://zhuanlan.zhihu.com/p/97786389
https://www.zhihu.com/question/43566578/answer/891387342
https://zhuanlan.zhihu.com/p/46537440
https://zhuanlan.zhihu.com/p/38034501
https://zhuanlan.zhihu.com/p/38341881
https://algo.qq.com/archive.html?

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/RdwYhWYiXNsUMitWbQ5PyQ

猜你喜歡