針對多目標推薦任務，微信看一看用 PAPERec 框架逼近帕累托最優

本文基於 WWW-2021 論文《Personalized Approximate Pareto-Efficient Recommendation》。

導語

真實推薦系統往往會同時關注多種目標，例如點擊率、時長、多樣性等。多目標優化推薦（multi-objective recommendation (MOR)）被廣泛研究以解決這類問題。帕累托最優（Pareto efficiency 或 Pareto Optimality）代表了一種多目標優化任務中的理想狀態。在帕累托最優下，多目標中的任何一個目標都不可能在不損害其他目標的前提下進行優化。帕累託優化的標量法（scalarization methods）將模型的多目標損失加權成一個整體損失函數，通過模型更新時同步調整權值實現帕累託優化，目前已運用於多目標推薦中。然而，這些工作往往對所有用戶使用同一套目標權值（objective weights），沒有考慮到用戶對於目標的個性化偏好。

爲了實現多目標推薦系統中用戶的目標級別的個性化，我們提出了一個新的 Personalized Approximate Pareto-Efficient Recommendation (PAPERec) 框架，基於 Pareto-oriented reinforcement learning 模塊生成用戶的個性化 objective weights，幫助模型近似地逼近帕累托最優。我們在微信看一看系統上部署了 PAPERec 模型，在離線和線上實驗的多個目標上均取得最優結果。

一、模型背景與簡介

真實世界的推薦系統往往需要同時關注多個目標（例如點擊率、時長、多樣性、用戶留存等），以獲得更好的用戶口碑和體驗。在不同的推薦場景下，系統對於不同目標的關注度也不盡相同。對於新聞推薦系統，時新性往往是系統關注重點，而對於視頻推薦系統，用戶觀看時長又是另一種重要的指標。多目標優化推薦（multi-objective recommendation (MOR)）主要着眼於解決推薦系統多目標優化的問題。不同的目標之間往往互有衝突，如何同時優化所有目標成爲多目標推薦系統的主要挑戰。

近期，帕累托最優（Pareto efficiency）的概率被引入多目標推薦系統中，並取得了良好結果。帕累托最優代表了一種多目標優化任務中的理想狀態。在帕累托最優下，多目標中的任何一個目標都不可能在不損害其他目標的前提下進行優化。在帕累託優化模型中，一個經典的方法是基於 scalarization method 的 Multiple gradient descent algorithm (MGDA) 模型 [1]。scalarization 通過一種線性加權的方式，將模型的多目標損失聯合成一個整體損失函數。而 MGDA 算法使用 KKT 條件進行多目標優化，提出了 Pareto stationary point 並證明它是 Pareto efficiency 的必要條件，然後通過調整 objective weights 優化 Pareto stationary point 中的最小化問題，保證模型梯度下降方向是朝着帕累托最優的方向。但是，目前絕大多數推薦中的帕累託多目標優化算法使用的是一套所有用戶共用的 objective weights，忽略了用戶對於不同目標的不同偏好度。如下圖所示，用戶 A 更加關注視頻的時長指標，而用戶 B 更加關注碎片化閱讀的點擊指標，我們想要在帕累託優化中考慮用戶的目標級別的個性化需求，提供更加優質的個性化推薦結果。

圖片

圖 1：用戶的目標級別的個性化偏好示例

因此，我們提出了一種個性化近似帕累托最優的多目標推薦框架 Personalized Approximate Pareto-Efficient Recommendation (PAPERec)。PAPERec 在優化中近似逼近帕累托最優，基於 Pareto-oriented reinforcement learning 模塊生成用戶的個性化 objective weights，保證了不同用戶擁有不同的目標權值。我們基於 MGDA 中證明的 Pareto stationary point 相關結論，直接使用其最小化問題——多目標梯度導數加權和的二範數——作爲 Pareto-oriented RL 的 reward，用以迭代更新生成 objective weights 的相關參數。我們將 PAPERec 部署在微信看一看推薦系統的 list-wise 推薦模塊，在離線和線上實驗的多個目標上均取得最優結果。這篇工作的貢獻點主要有以下三點：

1、我們提出一種新的個性化近似帕累托最優的多目標推薦框架 PAPERec。據我們所知，這是第一個考慮目標權值個性化的帕累托最優推薦模型；

2、我們設計了一種 Pareto-oriented RL 模塊，在真實 list-wise 推薦系統中通過控制個性化 objective weights 近似逼近帕累托最優；

3、模型通過大量離線和線上實驗，證明了 PAPERec 的有效性。目前 PAPERec 正部署於微信看一看系統，服務着海量用戶。

二、背景知識

在介紹 PAPERec 模型之前，我們先簡單回顧一下 Pareto efficiency 相關的經典定義（更多細節請參考 [1][2]）：

圖片

我們基於圖 2 給出一個帕累託優化的直觀定義。我們可以說在 CTR 和 Dwell time 兩個目標下，A dominates C, B dominates C，但是 A 和 B 之間沒有 dominate 的關係。這種情況下，帕累托最優希望模型能夠從 C 點開始優化，尋找到帕累託平面上的點（A 或者 B），使得空間中沒有其它 situation 能夠 dominate 現在的 situation。

圖片

圖 2：帕累托最優示例圖

在帕累托最優中，scalarization 是一個常見的方法。它通過一種線性加權的方式，將模型的多目標損失聯合成一個整體損失，具體如下：

圖片

需要注意這裏的 objective weight 並不是個性化的。Scalarization 方法能夠根據 weight 的變化，使得模型朝向帕累託平面進行優化。MGDA 算法提出了 Pareto stationary point 的概念，並證明它是 Pareto efficiency 的必要條件（證明詳情請參考 [1]）。尋找 Pareto stationary point 即可轉化爲下列優化問題：

圖片

MGDA 算法證明了：（1）當這個最小化問題的解是 0 時，這種 situation 就達到了 Pareto stationary point；或者（2）這個最小化問題的解得到的 objective weights 給出了一個能夠同時優化所有目標的帕累託優化方向（詳細證明請參考論文 [1][2]）。我們需要利用這一點，構建 PAPERec 的核心個性化 objective weights 的模塊，實現個性化近似帕累託算法。

三、具體模型

不失一般性，我們將 PAPERec 部署在微信看一看 list-wise RL 推薦模型上（模型結構和 AAAI-2021 論文 [5] 類似），同時關注點擊率（CTR）和時長（Dwell time, DT）兩個目標。爲了實現個性化 objective weights，我們基於 scalarization 設置模型的損失函數如下：

圖片

需要注意的是，我們在這裏設置了個性化的 objective weights，由一個 Pareto-oriented RL 模塊控制生成不同 user-item pair 的 objective weights。

具體地，PAPERec 包括了兩個單目標模型（single-objective model），分別優化 CTR 和 DT，以及一個 Pareto-oriented RL 模塊生成兩者的 objective weights。整體算法的僞代碼如下：在每個 batch 下，

（1）single-objective models 模塊計算各個單目標的 loss；

（2）基於當前各個單目標的 loss，計算 Pareto-oriented RL 的 loss，並以此更新 Pareto-oriented RL；

（3）基於更新後的 Pareto-oriented RL，計算新的 objective weights；

（4）基於新的 objective weights 更新所有 single-objective models。

PAPERec 通過這種迭代式地更新，使得模型近似逼近帕累托最優。

圖片

Pareto-oriented RL 模塊是 PAPERec 的核心模塊，負責生成個性化的 objective weights。在 Pareto-oriented RL 模塊中，我們設置 state，action，reward 如下：

圖片

其中，state 表示當前 list 的狀態（包括 list 中已經推薦的 item 的屬性和 objective weights），action 表示產生不同的 objective weights 這個動作。我們直接基於 Pareto stationary point 的最小化問題設置瞭如下 reward：

圖片

Pareto-oriented RL 的優化目標通過 reward，轉化爲最小化 list 內的多目標梯度導數加權和的二範數。在訓練中，如果 reward=0 時，當前狀態爲帕累托最優；在其它情況下，objective weights 會朝向 reward 最大（即二範數最小）的方向改變，慢慢接近最小化二範數的解——而這種最小化問題的解被證明是一個符合帕累託優化、能同時提升所有目標的方向。綜上所述，在 Pareto-oriented RL 的 reward 的指導下，模型能夠在理想狀態下基於個性化的 objective weights，近似朝向帕累托最優的方向優化。

我們在 PAPERec 中使用了 DDPG 進行 RL 的訓練。模型使用 Transformer 和 list-wise GRU 等對特徵交互和序列特徵進行建模，具體的模型結構如下：

圖片

圖 3：Pareto-oriented RL 模型結構

我們使用了相同結構的 feature encoder 建立 CTR 導向和 DT 導向的單目標模型，整體的 loss function 融合了 RL 和單目標模型兩個部分：

圖片

四、實驗結果

我們在微信看一看真實系統上部署了 PAPERec 模型，並且進行了離線和線上多個實驗，其中離線實驗的 CTR 和 DT 結果如下：

圖片

圖 4：離線實驗 CTR 和 DT 多目標預測結果

通過下圖能夠更加清楚看到不同模型之間是否存在 domination 的關係，可以看到 PAPERec 取得了最好的 DT 結果，並且綜合結果最佳。

圖片

圖 5：不同模型的多目標結果二維圖

最後，我們還在 objective-level personalization 上進行了定量的研究。我們發現，Top 10% CTR weight 的 user（可以看做是模型認爲這些 user 更關注 CTR）擁有更高的 CTR 值。在 item 維度，Top 10% DT weight 的 item（可以看做是模型認爲這些 item 更加關注時長）擁有更高的 DT per click 值。另外，我們也探索了 item 的不同類別對個性化 objective weights 的影響。我們發現 video 類別的 item 在 top 10% DT weight 中比 top 10% CTR weight 中更多，這說明 video 類的 item 被模型認爲時長比點擊率更重要（這也符合我們的直覺）——而 article 和 news 類別的 item 則剛剛相反。這一系列定量實驗證明了我們的 PAPERec 模型能夠良好地抓住 objective-level personalization 信息。

五、總結

本文針對多目標推薦任務，提出了一種個性化近似帕累托最優算法 PAPERec。模型能夠產生個性化的 objective weights，並基於 Pareto-oriented RL 定製的 reward 函數，通過指導 objective weights 的變化，引導所有單目標模型的優化，使得模型能夠近似朝着帕累托最優的方向優化。現在，PAPERec 模型已經部署於微信看一看的線上系統，服務海量用戶的個性化推薦需求。目前我們初步探索了基於帕累托最優的多目標推薦系統。我們認爲基於帕累托最優的多目標推薦系統同時具有很強的學術研究和工業實用價值，值得進一步探索。

論文作者是來自騰訊微信的 ruobingxie, yanleiliu, modriczhang, rysanwang, xiafengxia, goshawklin

參考文獻

[1] Désidéri J A. Multiple-gradient descent algorithm (MGDA) for multiobjective optimization[J]. Comptes Rendus Mathematique, 2012, 350(5-6): 313-318.

[2] Sener O, Koltun V. Multi-task learning as multi-objective optimization[C]. NeurIPS, 2018.

[3] Lin X, Chen H, Pei C, et al. A pareto-efficient algorithm for multiple objective optimization in e-commerce recommendation[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 20-28.

[4] Xie R, Ling C, Wang Y, et al. Deep Feedback Network for Recommendation[C]. Proceedings of IJCAI-PRICAI, 2020.

[5] Ruobing Xie*, Shaoliang Zhang*, Rui Wang, Feng Xia and Leyu Lin. Hierarchical Reinforcement Learning for Integrated Recommendation[C]. AAAI, 2021.

[6] Guo, Huifeng, et al. "DeepFM: a factorization-machine based neural network for CTR prediction." Proceedings of IJCAI, 2017.

[7] Song, Weiping, et al. "Autoint: Automatic feature interaction learning via self-attentive neural networks." Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.

[8] Ribeiro M T, Ziviani N, Moura E S D, et al. Multiobjective pareto-efficient approaches for recommender systems[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2014, 5(4): 1-20.

[9] Cheng W, Shen Y, Huang L. Adaptive factorization network: Learning adaptive-order feature interactions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(04): 3609-3616.

[10] Xiao L, Min Z, Yongfeng Z, et al. Fairness-aware group recommendation with pareto-efficiency[C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. 2017: 107-115.

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/p5ggDo4VkKdcUIkCk0dpIQ

猜你喜歡