無中生有：論推薦算法中的 Embedding 思想

前言

前段時間面試了許多應界生同學，驚訝地發現很多同學只做深度學習，對於 LR/GBDT 這樣的傳統機器學習算法，既不掌握理論，也從未實踐過。於是就想寫一篇文章，梳理一下推薦算法由傳統機器學習，發展到深度學習，再到未來的強化學習、圖神經網絡的技術發展脈絡，因爲**「只有瞭解過去，才能更好地把握當下與未來」**。

無奈這個題目太大，再加上近來分身乏術，實在無暇宏篇大論。於是今日小撰一文，聚焦於深度學習的核心思想 Embedding（**「Embedding is all you need」**😃），管中窺豹，梳理一下推薦算法的前世（前深度學習時代）、今生（當下的深度學習時代）和將來（圖神經網絡處於燎原的前夕）。本文只討論算法思想，即 “道” 的部分，至於如何實現具體算法，屬於 “技” 的部分，請移步本人專欄裏面的其他文章。

任何一門技術，要想獲得互聯網打工人的青睞，都必須能夠實實在在解決我們面臨的問題。那推薦算法面臨的經典問題，無非兩個，“「記憶」” 與 “「擴展」”。

推薦算法的傳統機器學習時代：博聞強記

我們希望推薦系統記住什麼？能夠記住的肯定是那些**「常見、高頻」**的模式。舉個簡單的例子：

到了春節，來了中國人，電商網站給他推餃子，大概率能夠購買
到了感恩節，來了美國人，電商網站給他推火雞，大概率也能購買

爲什麼？因爲 <春節，中國人，餃子> 的模式、<感恩節、美國人、火雞>的模式**「在訓練樣本中出現得太多太多了，推薦系統只需要記得住」**，下次遇到同樣的場景，“照方扒抓藥”，就能 “藥到病除”。

怎麼記住？上 “評分卡”

Logistic Regression 就是一個非常擅於記憶的模型。說是模型，其實就是一個超大規模的 “評分卡”。

上圖的評份卡，是金融風控領域用來評估申請人的信用分。推薦算法的 LR，如果形象地畫出來，與上面的評分卡類似，只不過卡里面的條目要多得多得多。

一個特徵（中國、美國），或特徵組合（<春節、中國人、餃子>）佔據 “推薦評分卡” 中的一項。可想而知，一個工業級的推薦 LR 的評分卡里面，條目會有上億項。
每項（i.e., 特徵或特徵組合）都對應一個分數
這個分數是由 LR 學習出來的，有正有負，代表對最終目標（比如成交，即 label=1）的貢獻。比如SCORE(<春節，中國人，餃子>)=5，代表這種組合非常容易成交；反之SCORE(<中國人、鯡魚罐頭>)=-100，代表這個組合極不容易成交
簡單理解，可以認爲在正樣本中出現越多的特徵（組合）得分越高，反之在負樣本中出現越多的特徵（組合）得分越低
最終給一個 <user, context, item> 的打分是其命中的評分卡中所有條目的得分總和。比如當一箇中國客戶來了，預測他對一款 “榴蓮餡水餃” 的購買慾望 =SCORE(<春節、中國人、餃子>)+SCORE(<中國人，榴蓮>)=5-3.5=1.5，即推薦系統猜他還是有可能會購買，但是慾望並不那麼強烈。

LR("評分卡") 模型的特點

LR 的特點就是強於記憶，只要評分卡足夠大（比如幾千億項），它能夠記住歷史上的發生過的所有模式（i.e., 特徵及其組合）。
所有的模式，都依賴人工輸入。
LR 本身並不能夠發掘出新模式，它只負責評估各模式的重要性。（通過 Cross Entropy Loss + SGD 學習得到）
LR 不發掘新模式，反之它能夠通過 regularization，能夠剔除一些罕見模式（比如 <中國人，于謙在非洲喫的同款恩希瑪>），即避免過擬合，又減少評分卡的規模

LR("評分卡") 模型的缺陷

LR 強於記憶，弱於擴展。還舉剛纔的例子

中國人來了推餃子，美國人來了推火雞，都效果不錯，畢竟 LR 記性好。
但是，當一箇中國人來了，你的推薦系統會給他推薦一隻火雞嗎？
假設是幾前年，當時中國人對洋節接受度不高。如果你的推薦系統只有 LR，只有記憶功能，答案是：「不會」。因爲 <中國人，火雞> 屬於小衆模式，在歷史樣本罕有出現，LR 的 L1 正則直接將 <中國人火雞> 打分置 0，從而被從評分卡中剔除。

不要小看這個問題，它關乎到企業的生死，也就關係到你老闆和你的腰包

記憶，記住的肯定是那些常見、高頻、大衆的模式，能夠 handle 住 80% 用戶的 80% 的日常需求，但是**「對小衆用戶的小衆需求呢」**（某些中國人喜歡開洋葷的需求、於老師的超級粉絲希望和偶像體驗相同美食的需求）？**「無能爲力」**，因爲缺乏歷史樣本的支持，換句話說，推薦的個性化太弱。
另一個問題是，大衆的需求，你能記住，別家電商也能記住。所以你和你的同行，只能在 “滿足大衆需求” 的這一片紅海里相互廝殺。套用如今最時髦的詞，“「內卷」”。

推薦算法的剛需：擴展

綜上所述，爲了避開 “大衆推薦” 這一片內卷嚴重的紅海，而擁抱“「個性化精準推薦」” 的**「藍海」**，推薦算法不能只滿足於記住 “常見、高頻” 的模式（訓練數據中頻繁出現的），而必須能夠自動挖掘出“**「低頻、長尾」**”（訓練數據中罕見的）模式。

如何擴展？看似神祕，其實就是將粗粒度的概念，拆解成一系列細粒度的特徵，從而 “看山非山、看水非水”。還舉餃子、火雞的例子

在之前講記憶的時候，餃子、火雞都是獨立的概念，看似無什麼相似性
但是，如果我們根據業務知識，將概念拆解，如上圖所示。兩個特徵向量的第一位表示 “是否是食物”，從這個角度來看，餃子、火雞非常相似；兩個特徵的第二位是 “是否和節日相關”，從這個角度來看，餃子、火雞也非常相似。
喂入 LR (評分卡) 的除了粗粒度模式，<春節，中國人，餃子>和<感恩節，美國人，火雞>，還有細粒度的模式，比如<節日，節日相關的食物>。這樣一來，<春節，中國人，火雞> 這樣的**「小衆模式，也能夠命中評分卡」**，並獲得一箇中等分數（因爲<節日，節日相關的食物>在正負樣本中都有出現，所以得分中等）。**「相比於原來被 L1 正則優化掉，小衆模式也有了出頭之日，獲得了曝光的機會」**。

這樣看來，只要我們喂入算法的，不是粗粒度的概念，而是細粒度的特徵向量，即便是 LR 這樣強記憶的算法，也能夠具備擴展能力。

但是，上述方法依賴於人工拆解，也就是所謂的 “特徵工程”，有兩方面的缺點：

工作量大，勞神費力
人的理解畢竟有侷限性。比如餃子、火雞，拆解到食物、和節日相關這個級別，就已經算是細粒度了嗎？還能不能從其他角度拆解？

既然人工拆解有困難、受侷限，即能不能**「讓算法自動將概念拆解成特徵向量」**？如果你能夠想到這一步，恭喜你，你一隻腳已經邁入了深度學習的大門。你已經悟到了 “道”，剩下的只是“技” 而已。

深度學習的核心套路：無中生有的 Embedding

學習的過程，就是把書讀薄的過程。我曾經提到過，林彪元帥用 “剪貼法” 來讀書：在讀書時，選擇他認爲 “有用” 的話剪貼起來。一本《共產黨宣言》最後被他剪到最後只剩下 “大工業、大機器” 幾個字。

區區不才，而欲效法先賢。到目前爲止，我也曾經將兩門技術總結成四字成語，並 “自鳴得意”。第一個，我將 Object-Oriented Programming 總結爲 “求同存異”，即 OOP 的核心思想就是將不同的實現隱藏在相同的接口後面。另一個就是深度學習，我總結它爲 “「無中生有」”，也就是本文標題的來歷。

所謂 “無中生有”，

就是當你需要用到一個概念的特徵v（比如前面例子裏的餃子、火雞），或者一個函數f（比如阿里 Deep Interest Network 中的 “注意力” 函數、CNN 中的 filter），但是卻不知道如何定義它們，
沒關係，先將v聲明爲特徵向量，將f聲明爲一個小的神經網絡，並隨機初始化
然後讓v和f，隨着主目標（最終的分類或迴歸 loss），一同被 SGD 所優化。
當主目標被成功優化之後，我們也就獲得了有意義的v和f。

這種 “無中生有” 的套路，好似 “上帝說，要有光，於是便有了光” 的神蹟。以訛傳訛，後來就變成了初學者口中 “深度學習不需要特徵工程”，給了某些人“我只做深度學習，不做機器學習” 的盲目自信。其實這種“「將特徵、函數轉化爲待優化變量」” 的思想，並不是深度學習發明的，早在**「用矩陣分解進行推薦」**的 “古代” 就已經存在了，只不過那時候，它不叫 Embedding，而叫“**「隱向量」**”。

變 “精確匹配” 爲“模糊查找”

深度學習對於推薦算法的貢獻與提升，其核心就在於 Embedding。如前文所述，Embedding 是一門自動將概念拆解爲特徵向量的技術，目標是提升推薦算法的擴展能力，從而能夠自動挖掘那些低頻、長尾、小衆的模式，擁抱 “個性化推薦” 的“藍海”。

Embedding 到底是如何提升 “擴展” 能力的？簡單來說，Embedding 將推薦算法從“「精確匹配」” 轉化爲 “「模糊查找」”，從而能夠 “「舉一反三」”。

比如在使用倒排索引的召回中，是無法給一個喜歡 “科學” 的用戶，推出一篇帶 “科技” 標籤的文章的（不考慮近義詞擴展），因爲 “科學” 與“科技”是兩個完全獨立的詞。但是經過 Embedding，我們發現 “科學” 與“科技”兩個向量，並不是正交的，而是有很小的夾角。設想一個極其簡化的場景，用戶向量就用 “科學” 向量來表示，文章的向量只用其標籤的向量來表示，那麼用 “科學” 向量在所有標籤向量裏做 Top-K 近鄰搜索，一篇帶 “科技” 標籤的文章就有機會呈現在用戶眼前，從而破除之前 “只能精確匹配‘科學’標籤” 帶來的“「信息繭房」”

再回到原來餃子、火雞的例子裏，藉助 Embedding，算法能夠自動學習到火雞與餃子的相似性，從而給 <中國人，火雞> 的小衆組合打一個不低的分數，使火雞得到了推薦給中國人的機會，從而能更好地給那些喜歡過洋節的中國人提供更好的個性化服務

誰來接過 Embedding 的手中的旗幟？

在以 Embedding 爲核心的深度學習之後，推薦算法的下一個技術方向在哪裏？現如今，“圖神經網絡在推薦領域的應用” 的 paper 層出不窮，在各大廠也已經有落地的成功案例，處於燎原的前夕。但是作爲一個合格的煉丹師 + 調參俠，總要搞清楚 GNN 爲什麼火？它到底解決了什麼當下技術無法解決的難題？

我在《也評 Deep Interest Evolution Network》中曾經提到過，“「高維、稀疏的 categorical/id 類特徵都是推薦系統中的一等公民」”。比如，用戶購買過的商品、光顧過的店鋪、搜索過的關鍵詞、商品的分類與標籤，都是這樣的 ID 類特徵。包括 Embedding 在內的很多推薦技術，都是爲了更好地伺候好這些一等公民而提出的。

而到了 “圖計算” 或“知識圖譜”的階段，ID 類特徵換了個名字，變成圖上的節點或者知識圖譜中的 entity。換名字是小事，「關鍵是這些 ID 不再是孤立的，而是彼此關聯，從而帶來了信息的傳遞」。

之前，小明喝過 “可口可樂”，只有“可口可樂” 自己，（通過 Embedding）爲推薦算法刻畫小明貢獻信息。
如今，因爲小紅也喝過 “可口可樂”，小紅的信息也能傳遞給小明；
因爲 “可口可樂” 與“炸雞”經常一起消費，所以 “炸雞” 的信息也能夠傳遞到小明身上。

可以發現，「如果說 Embedding 是在提升各 ID 類特徵的內涵，那麼 GNN 就是在擴展各 ID 類特徵的外延」。

所以，GNN 瞄準的改進方向是：

之前，像用戶訪問過的店鋪、商品所屬分類這樣的 ID 類信息，只是單純地爲刻畫 user 和 item 貢獻了自己本身的信息，但是**「它們背後的 “社交” 功能還未被開發和利用」**。
與當前用戶逛同一家商店的其他用戶的信息，對於刻畫當前用戶也非常有幫助。同理還有與當前用戶喜歡同一品牌的其他用戶的信息、與當前用戶使用相同搜索詞的其他用戶的信息、......。正所謂 “「人以羣分」”，這種類似於**「User Collaborative Filtering」**的思想被實踐證明是非常有效的。
與當前商品同屬一個類別的其他商品的信息，對於刻畫當前商品也非常有幫助。同理還有與當前商品屬於一個品牌的其他商品的信息，與當前商品使用類似文字描述的其他商品的信息、......。正所謂 “「物以類聚」”，這種類似於**「Item Collaborative Filtering」**的思想同樣被實踐證明是相當有效的。
「GNN 通過圖上的信息傳遞，充分開發、利用了 ID 類特徵的社交功能」，彌補了短板。GNN 不僅能夠利用當前 user 與 item 自身的信息，還融合了與其類似的 user/item 的信息，類似 User CF 或 Item CF。可諮利用的信息大大豐富，有助於模型學到更復雜的模式，「同時也緩解了對低活用戶、冷門商品的 “冷啓動” 問題」。

對於 GNN 在推薦系統中的應用感興趣的同學，可以參考我的另一篇文章《知識圖譜上的雙塔召回：阿里的 IntentGC 模型》。

簡單總結一下，幫助各位調參俠 + 打工人，更好地掌握推薦算法的 “昨天、今天與明天”：

「傳統機器學習」，對訓練數據中出現的模式，只會**「死記硬背」**
以 Embedding 爲核心的**「深度學習」**技術，**「擴展了」**訓練時所見模式的**「內涵」**
以 GNN 爲代表的**「圖計算」**技術，**「擴展」**了訓練時所見模式的**「外延」**

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/hURdID1vkjUYEGbRNKt59w

前言