淘寶視頻的跨模態檢索

本系列將介紹在淘寶內容電商生態業務中，對短視頻直播這類多媒體內容的識別理解工作。其中包括多媒體內容標籤結構化、內容多模態融合識別、超大規模視頻標籤理解、跨模態語義檢索、實時流媒體內容數字化、視頻 highlight 提取及創意生產、多模態內容標籤圖譜建設等方面的工作成果。

背景

近年來短視頻應用大火，視頻媒體逐漸成爲用戶消費的主要內容載體之一，對視頻內容的精準檢索成爲重要的技術需求。自然文本描述和視頻進行跨模態檢索（Cross-Modal Text-Video Retrieval）是最符合自然人機交互的方式之一，通過描述文本語義特徵和視頻理解多模態特徵的相關性計算，滿足用戶對視頻內容的檢索需求。本文工作針對淘寶首猜全屏頁、逛逛等內容場景，採用文本 - 視頻跨模態檢索的方法，實現淘寶大規模內容標籤和視頻的掛靠 [1,3]。

淘寶內容社區中，商家及用戶上傳視頻有較大內容隨意性，內容發散性和內容多模態的特點，對內容搜索及推薦結果準確性的衡量，用戶更多通過視覺內容判斷是否符合自身需求興趣，視覺信息對於視頻內容語義表徵十分重要。視頻檢索文本標籤主要有 3 種方式：

內容文本檢索標籤；
圖像序列檢索標籤；
視頻多模態內容檢索標籤。

如下圖視頻內容文本與主題標籤內容存在顯著差異，視頻內容文本檢索標籤的方式由於視頻文本信息不足，難以匹配精準的主題標籤滿足用戶的內容消費需求。視頻圖像分析主要理解視覺畫面信息，缺少對文本語義的挖掘，語義信息不足以準確檢索出符合的主題標籤。考慮到標題文本信息不足語義缺失的問題以及視頻多模態內容信息互補性的優勢，視頻多模態內容檢索標籤的方法更加貼合內容標籤和淘寶視頻掛靠的任務。

相關工作

跨模態檢索的主要技術挑戰在於底層特徵異構，高層語義相關。當前跨模態檢索主流的技術方法是編碼不同模態數據到共同的隱空間，消除不同模態數據的語義 gap 實現語義特徵的對齊，計算不同模態數據之間的特徵相似度實現準確的檢索。早期工作主要採用 RNN 類模型對文本側進行特徵編碼，採用 CNN 類模型對視頻圖像側進行特診編碼，接着結合 ranking loss 進行度量學習 [10-13]。下一階段工作着重於語義局部對齊，主要有幾個思路：

文本側分解文本的字詞，圖像側切分圖像區域，基於交互注意力實現局部特徵細粒度對齊 [9]。
分別對文本側字詞和圖像側圖像區域構建圖網絡結構，結合 GCN 學習局部特徵之間相關性 [10][11]。
文本和圖像的相互生成，通過對抗訓練實現局部語義的對齊 [12]。

以上前沿工作主要在圖像 - 文本檢索任務上實現，當前圖像 - 文本檢索任務在集團內部業務上的嘗試也取得了不錯的效果，如夸克圖搜 [6]，封面圖挑選 [7,8]。以上論文工作目前在各大公開數據集達到了十分卓越的性能，但是應用於本文工作時存在以下問題：

文本 - 視頻檢索數據來源於淘寶點擊日誌，樣本不均衡問題是個重大挑戰。
語義局部對齊有不同模態特徵的交互計算，在大規模召回場景中向量檢索效率低下。
如何更加有效地表徵視頻多模態信息，融合互補多模態信息檢索準確的主題標籤。

對於視頻 - 文本檢索任務，視頻內容的多模態特點和時空信息複雜性讓該檢索任務更具挑戰性。本文工作針對視頻 - 文本檢索任務展開研究和討論，實現基於圖神經網絡的視頻跨模態檢索算法。

算法

本文的任務場景是給定淘寶視頻標題內容文本、視頻圖像以及主題文本標籤，完成文本到視頻的跨模態檢索，進一步提升檢索準確率。爲此設計的算法思路着力於消除不同模態的語義鴻溝，同時保證同模態內容的語義判別性。

考慮到淘寶主題標籤與視頻數據掛載分佈特點和大規模高效檢索的需求，文本與視頻的大規模檢索擬解決的挑戰如下：

訓練樣本稀疏和均衡：主題標籤關聯商品或視頻內容有不同熱度和關注人羣密度，點擊日誌中主題與視頻掛靠呈現不均衡性和稀疏性，如何實現構建更多的隱 Pair 訓練過程中進行數據增強。
同模態語義判別性：主題標籤與視頻的匹配二值標籤無法提供單模態同語義樣本的度量約束。
多目標學習：同模態度量學習和跨模態度量學習的聯合訓練。
大規模檢索效率：語義相關性模型檢索效率比語義檢索模型低，採用雙塔模型結構實現。

針對上述技術挑戰，本文的算法模型設計結合圖神經網絡 GraphSAGE[15] 的雙塔檢索框架，該框架的優點：

通過圖網絡構建緩解訓練樣本稀疏和均衡問題。樣本 1 和樣本 2 有點擊 Pairs 標籤，樣本 3 和樣本 2 內容表達一致但沒有點擊 Pairs 標籤，在圖網絡中拉近樣本 1 和樣本 3 的特徵距離來間接拉近樣本 2 和樣本 3 的特徵距離。
圖網絡中同模態和跨模態端到端的度量學習進一步保證不同模態的語義一致性和同模態語義的判別性。
可以實現高效的大規模檢索。

該模型主要包括文本編碼模型、視頻多模態編碼模型、圖網絡算法模型、度量學習模型。

▐ 文本編碼

文本編碼將主題標籤文本轉爲定長實數向量，該向量能夠反映主題內容信息，與視頻編碼向量進行相似度計算。本文在實驗中嘗試過通用預訓練 BERT、淘內預訓練 RoBert、Transformer 等結構，最後綜合考慮性能和效率採用了從頭開始訓練的 6 層 Transformer 結構。其首先對 query 進行分詞，每個分詞的 word embedding 初始參數隨機；分詞長度固定，不足補零，過長直接截斷；整個文本所有參數 random 初始化，和檢索模型一起端到端訓練參數更新。

▐ 視頻編碼

視頻編碼模型主要是將視頻多模態數據轉化成反映視頻內容的特徵向量。爲了提升訓練效率，本文的視頻多模態表徵向量採用淘內數據預訓練的視頻多模態預訓練模型離線提取的特徵，嘗試的模型包括雙流網絡結構 LXMERT[3,13] 和單流網絡結構 UniterVideo[4,5,14]。多模態模型輸入每個視頻幀提取的 inception V4 圖像特徵以及視頻對應的描述信息，例如視頻標題，summary 等信息，設計了 4 個 task，Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM) 以及商品類目分類模型 (CLS)，整體模型結構如下。

LXMERT 雙流架構

Uniter 單流架構

▐ 圖網絡模型

本文工作在經典雙塔模型的技術上嵌入 GraphSAGE 圖神經網絡模型，在大規模圖上學習結點 embedding，集團的 GraphLearning 圖學習框架爲本文的算法提供了框架基礎。整體的圖網絡學習框架如下，其中輸入特徵分別來自文本編碼和視頻編碼的輸出特徵。

大規模異構圖構建

建圖的合理性和準確性是影響圖結點特徵學習的重要因素，從提升結點覆蓋率和構邊置信度兩個目標出發，本文采用先驗特徵相似和後驗點擊行爲對視頻和主題標籤構建圖網絡。

基於用戶點擊行爲建圖

文本 - 視頻異構圖：在雲主題搜索、內容搜索、淘寶經驗、手淘搜索等搜索場景中用戶在主題標籤或 query 下掛的視頻列表中觸發的點擊行爲作爲文本 - 視頻異構構邊的依據。
文本 - 文本 / 視頻 - 視頻同構圖：在雲主題搜索、內容搜索、淘寶經驗、手淘搜索等搜索場景，同一用戶在同一 query 下點擊的視頻有高度相關的語義，同一用戶在聚合主題下點擊的外透視頻內容也十分類似，這些視頻兩兩構邊。同一視頻掛靠的主題標籤和搜索 query 也同理構邊。

基於語義相似度建圖

文本 - 文本 / 視頻 - 視頻同構圖：對於新樣本和冷啓動樣本採用文本或視頻預訓練模型提取的特徵計算語義相似度，分別在視頻池和語料庫中選取相似度最高的 TOP10 樣本構邊。對於新樣本和冷啓動樣本採用文本或視頻預訓練模型提取的特徵計算語義相似度，分別在視頻池和語料庫中選取相似度最高的 TOP10 樣本構邊。

鄰結點採樣

圖結點鄰居採樣的方式常用包括：隨機採樣，隨機廣度採度，隨機遊走採樣 Random Walk。考慮到經典隨機遊走算法對於度大節點的偏向性問題，本文采用修正改進版本的遊走策略，降低度大節點的遊走概率，結點對鄰居結點採樣概率爲：

其中，表示結點的鄰結點集，、分別表示結點和的度數。

特徵聚合

在圖結點特徵聚合上本文采用 pooling 聚合，先對每個鄰居結點上一層 embedding 進行非線性轉換，再按維度應用 max/mean pooling，捕獲鄰居集上的顯著特徵以此表示目標結點 embedding。具體 pipeline 如下：

在特徵聚合策略上，考慮跨模態檢索的目的是實現不同模態數據在高維空間的語義對齊，消除數據模態差異的存在，因此本文根據聚合鄰結點的類型，嘗試採用實驗了三種不同的聚合策略：

同構聚合，目標結點只聚合同模態的鄰結點
異構聚合，目標結點只聚合不同模態的鄰結點
混合聚合，目標結點隨機聚合鄰結點

在第四小節的實驗對比可以看出同構聚合策略性能最佳。

▐ 度量學習

正負樣本設置

跨模態訓練任務的視頻 - 文本異構正樣本通過異構邊直接獲取，異構負樣本的選擇採用自適應五元組損失 AOQ Loss[16] 採用 Batch 內在線難樣本挖掘 Online Hard Sample 和離線難樣本挖掘 Offline Hard Sample 選擇在線局部負樣本和離線全局負樣本。

單模態訓練任務的視頻 - 視頻、文本 - 文本的同構正樣本分別來自同構邊的一跳和二跳遊走採樣鄰結點，負樣本在全圖進行隨機採樣。

目標優化函數

本文設計的損失函數包括兩部分：

同模態度量損失和有無邊二分類損失。同模態度量損失是距離約束，保證在高維度量空間拉近正樣本距離，拉遠負樣本對距離；有無邊二分類損失本質是根據圖的結構構建正負樣本的相關性約束。
跨模態自適應五元組度量損失。在線難樣本挖掘有兩個主要不足：
負樣本選擇策略具有局部性、"難度" 不足；
對於正樣本對和負樣本對的懲罰力度一致，不同難度的樣本對應有不同的優化更新力度。

本文采用自適應五元組損失損失，自適應調整正樣本對、在線負樣本對、離線負樣本對的更新權重，達到在相似度方面正樣本對 > 在線負樣本對 > 離線負樣本對的目的。

損失公式表達：

同模態度量損失：

同模態有無邊二分類損失：

跨模態度量損失:

其中表示文本 768 維特徵向量，表示視頻 768 維特徵向量，表示文本正樣本，表示視頻正樣本，表示文本局部負樣本，表示視頻局部負樣本，表示文本全局負樣本，表示視頻全局負樣本，、爲超參數, 表示文本同構邊, 表示文本同構邊, 表示指示函數，表示距離間隔，表示負樣本數量。

訓練細節

整個檢索模型以端到端的方式進行訓練，訓練分兩輪。第一輪次訓練跨模態部分度量學習僅採用在線難挖掘損失，訓練優化過程進行學習率 warm up。早期訓練容易出現模型崩塌現象，hard triplet loss 促使各樣本點映射到同一個點，loss 收斂到 margin。爲解決該問題 FaceNet 採用 semi-hard triplet loss 可以使模型訓練更加穩定、收斂更快，但達不到 hard triplet loss 的更優解。本文選擇在學習率 warm up 期間採用負樣本在線隨機採樣，模型訓練穩定之後採用在線難樣本挖掘訓練直到收斂。第一輪次訓練完成之後，訓練樣本進行全局語義檢索尋找全局難負樣本，構建五元組進行第二輪次訓練。

在原始訓練數據的基礎上，本文嘗試進一步採用半監督學習的方式進行訓練數據的擴量，訓練完成的模型在萬象城視頻庫召回更多的僞匹配樣本，訓練數據的擴量帶來更大的性能提升。

實驗

▐ 度量學習

檢索衡量指標採用檢索召回準確率 Top1，Top5，Top20 以及 Mean Rank 值。1K 淘寶樣本對檢索性能如下。基於預訓練 Roberta 文本特徵的視頻文本 - 標籤文本檢索方式與基於多模態特徵的視頻多模態 - 標籤文本的檢索方式性能有明顯差距，視頻多模態信息的互補增益更好地實現淘寶視頻內容理解。視頻多模態 - 標籤文本的檢索方式在引入圖神經網絡算法後在 Top1 準確率上有超過 9.0% 的性能提升，圖結構信息的引入進一步提升了視頻和文本結點的語義表徵能力。模型在度量學習上結合離線全局負樣本採樣和在線局部負樣本採樣的方式在 Top1 準確率上提升 2.0%，採樣不同難度的負樣本使模型收斂到更優點。本文嘗試通過半監督的方式擴量訓練集召回更多僞匹配樣本，對模型性能有更佳的增益。

▐ 公開數據集實驗

本文算法應用於 MSCOCO Retrieval 數據集做性能測試。MSCOCO Retrieval 數據集的 5K 檢索任務性能結果對比如下，其中對比方法主要限定採用雙塔模型結構、特徵提取無需模態間交互對齊計算、適用於大規模檢索的方法。本文工作達到了於同期前沿工作具有競爭力的性能。

▐ 消融對比及可視化

聚合策略

圖結點表示的三種不同的聚合策略性能結果對比如表所示，本小節實驗結果在模型 [Uniter | transformers | GNN] 實現，檢索衡量指標同樣採用檢索召回準確率 Top1，Top5，Top20 以及 Mean Rank 值。

異構聚合策略比同構聚合策略在 Top1 準確率跌落幾個百分點，存在的原因有：

圖網絡構建準確率還不夠高，採樣的異構結點與目標結點存在語義不配現象；
不同模態數據在聚合過程中非線性變換處理沒有根據模態差異設置不同的優化參數，目前採用的聚合過程的線性層採用共享參數。

樣本可視化

本文抽取部分測試樣本，模型提取文本特徵和視頻特徵並進行進行 T-SNE 處理可視化，如下圖所示，其中藍色表示文本樣本，紅色表示視頻樣本，可以看出同內容語義的文本視頻來高維空間得到很好的聚類效應，並且同其他不同內容語義的樣本保持一定間隔距離。GNN 的引入使得同模態正樣本之間的距離更加拉近。

主題標籤召回示

主題標籤在千萬級首猜精品視頻池進行向量檢索，手淘全屏頁 [3] 主題標籤召回示例 case：

討論和展望

本文對淘寶內容場景下的文本視頻跨模態檢索問題進行了研究和討論，指出跨模態檢索當前存在的訓練樣本稀疏均衡問題、跨模態度量學習的技術挑戰和高效檢索問題，並對此做出了深入分析，提出了結合 GraphSAGE 圖網絡算法的雙塔跨模態檢索模型，分別對同模態和跨模態進行多目標學習，保證同模態判別性的同時，實現跨模態特徵的對齊，線下實驗驗證和業務評測驗證了本文算法有效性。本文對文本 - 視頻跨模態檢索技術的研究主要通過文本和視頻全局特徵構建雙塔度量模型，後續會繼續深耕：

探索文本 - 視頻的特徵細粒度對齊，解構視頻多模態特徵，實現不同模態特徵與文本的解耦對齊。
探索文本 - 視頻特徵度量學習，實現精度更細的局部度量。

參考文獻

[1] 讓機器讀懂視頻，淘寶短視頻超大規模標籤理解

[2] 短視頻全屏頁的認知理解和運用

[3] 多模態內容的表達學習及應用

[4] 多模態表徵學習在短視頻推薦場景上的應用探索

[5] PAI-EasyMM: 通用多模態學習框架

[6] 多模態學習在夸克圖搜中的應用

[7] 跨模態檢索初探 - 躺平搜索首圖挑選

[8] 基於多模語義相關性的智能短視頻封圖挑選

[9] Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 201-216.

[10] Wen K, Gu X, Cheng Q. Learning Dual Semantic Relations with Graph Attention for Image-Text Matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020.

[11] Liu Y, Wan B, Zhu X, et al. Learning cross-modal context graph for visual grounding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11645-11652.

[12] Gu J, Cai J, Joty S R, et al. Look, imagine and match: Improving textual-visual cross-modal retrieval with generative models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7181-7189.

[13] Tan H, Bansal M. Lxmert: Learning cross-modality encoder representations from transformers[J]. arXiv preprint arXiv:1908.07490, 2019.

[14] Chen Y C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]//European Conference on Computer Vision. Springer, Cham, 2020: 104-120.

[15] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs[J]. arXiv preprint arXiv:1706.02216, 2017.

[16] Chen T, Deng J, Luo J. Adaptive Offline Quintuplet Loss for Image-Text Matching[C]//European Conference on Computer Vision. Springer, Cham, 2020: 549-565.

[17] Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[J]. arXiv preprint arXiv:1707.05612, 2017.

[18] Zhang Y, Lu H. Deep cross-modal projection learning for image-text matching[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 686-701.

[19] Huang Y, Wu Q, Song C, et al. Learning semantic concepts and order for image and sentence matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6163-6171.

[20] Song Y, Soleymani M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1979-1988.

作者 | 言廷

編輯 | 橙子君

出品 | 阿里巴巴新零售淘系技術

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/JgWdd1VCcIcTxENZP3PHpg

▐ 文本編碼

▐ 視頻編碼

▐ 圖網絡模型

大規模異構圖構建

鄰結點採樣

特徵聚合

▐ 度量學習

正負樣本設置

目標優化函數

訓練細節

▐ 度量學習

▐ 公開數據集實驗

▐ 消融對比及可視化

聚合策略

樣本可視化

主題標籤召回示

猜你喜歡