CVPR 2021｜近期自監督學習必讀論文

自監督學習主要是利用輔助任務（pretext）從大規模的無監督數據中挖掘自身的監督信息，通過這種構造的監督信息對網絡進行訓練，從而可以學習到對下游任務有價值的表徵。

也就是說自監督學習的監督信息不是人工標註的，而是算法在大規模無監督數據中自動構造監督信息，來進行監督學習或訓練。因此，大多數時候，我們稱之爲無監督預訓練方法或無監督學習方法，嚴格上講，他應該叫自監督學習。

現在推薦幾篇 CVPR 2021 自監督學習的幾篇論文：

1. 論文名稱：Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation

論文鏈接：https://www.aminer.cn/pub/6065994691e011d10ad613ce?conf=cvpr2021

簡介：無監督域適應（UDA）將預測模型從完全標記的源域轉移到未標記的目標域。但是，在某些應用程序中，即使在源域中收集標籤也很昂貴，這使得大多數以前的工作不切實際。爲了解決這個問題，最近的工作進行了實例化的跨域自我監督學習，隨後進行了額外的微調階段。但是，基於實例的自我監督學習只能學習並調整低級判別功能。在本文中，我們提出了一種針對少數快速無監督域自適應（FUDA）的端到端原型跨域自我監督學習（PCS）框架。PCS 不僅執行跨域低級特徵對齊，而且還跨域共享嵌入空間中的語義結構進行編碼和對齊。我們的框架通過域內原型對比學習來捕獲數據的類別語義結構；並通過跨域原型自我監督執行特徵對齊。

2. 論文名稱：Vectorization and Rasterization: Self-Supervised Learning for Sketch and Handwriting

論文鏈接：https://www.aminer.cn/pub/605daf9d91e0113c28655945?conf=cvpr2021

簡介：自我監督式學習由於能夠從未標記的數據中學習強大的表示形式而發揮作用，因此在許多具有挑戰性的下游任務中均表現出色，因此具有很高的知名度。但是，無監督的前置任務在設計時通常具有挑戰性，並且通常是特定於模式的。儘管有大量關於空間（例如圖像）或時間數據（聲音或文本）模態的自我監督方法的文獻，但是卻普遍缺少使兩種模態都受益的常見前置任務。在本文中，我們有興趣爲草圖和手寫數據定義一個自我監督的前置任務。該數據的獨特之處在於它以光柵圖像和矢量座標序列的雙重形式存在。我們通過提出兩個新穎的跨模式翻譯前置任務以進行自我監督的特徵學習來解決和利用這種雙重表示形式：矢量化和柵格化。矢量化學習將圖像空間映射到矢量座標，而光柵化將矢量座標映射到圖像空間。我們表明，我們學習到的編碼器模塊有益於分析手繪數據的基於柵格和基於矢量的下游方法。經驗證據表明，我們新穎的前置任務超越了現有的單模式和多模式自我監督方法。

3. 論文名稱：Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning

論文鏈接：https://www.aminer.cn/pub/605085c691e0111e1cd46af2?conf=cvpr2021

簡介：由於食物在人們生活中的重要性以及可用於訓練機器學習模型的大量數字烹飪食譜和食物圖像的可用性，跨模式食譜檢索最近受到了廣泛關注。在這項工作中，我們將重新研究跨模式配方檢索的現有方法，並基於已建立的高性能文本和圖像編碼器，提出一種簡化的端到端模型。我們引入了一個分層的配方變壓器，該變壓器專注地編碼各個配方組件（標題，成分和說明）。此外，我們提出了一個基於獨立配方成分對計算的自我監督損失函數，該函數能夠利用配方中的語義關係，並能夠使用圖像配方和僅配方樣本進行訓練。我們進行了徹底的分析和消融研究，以驗證我們的設計選擇。結果，我們提出的方法在 Recipe1M 數據集的跨模式配方檢索任務中實現了最新的性能。

4. 論文名稱：Self-supervised Learning of Depth Inference for Multi-view Stereo

論文鏈接：https://www.aminer.cn/pub/606ed80291e011aa47b6ab78?conf=cvpr2021

簡介：最近受監督的多視圖深度估計網絡取得了可喜的結果。與所有受監督的方法類似，這些網絡在訓練期間需要真實的數據。但是，收集大量的多視圖深度數據非常具有挑戰性。在這裏，我們爲多視圖立體聲提出了一種自我監督的學習框架，該框架利用了來自輸入數據的僞標籤。我們首先學習在依賴圖像重建損失作爲監督的無監督學習框架下，將深度圖估計爲初始僞標籤。然後，我們使用經過精心設計的流水線來細化初始僞標籤，利用從高分辨率圖像和鄰近視圖推斷出的深度信息。我們使用這些高質量的僞標籤作爲監督信號來訓練網絡，並通過自訓練來迭代地提高其性能。在 DTU 數據集上進行的大量實驗表明，我們提出的自監督學習框架在很大程度上優於現有的無監督多視圖立體聲網絡，並且與受監督的同類網絡相比具有同等的性能。

5. 論文名稱：SelfAugment: Automatic Augmentation Policies for Self-Supervised Learning

論文鏈接：https://www.aminer.cn/pub/603c3fa49e795ea1fb8124bb?conf=cvpr2021

簡介：無監督表示學習中的一種常見做法是使用標記的數據來評估學習到的表示的質量。然後，該監督評估將用於指導培訓過程的關鍵方面，例如選擇數據增強策略。但是，對於實際上不包含標籤的真實世界數據，不可能通過監督評估來指導無監督培訓過程（例如，在諸如醫學成像之類的隱私敏感領域中可能就是這種情況）。因此，在這項工作中，我們表明，使用自我監督的圖像旋轉任務評估學習的表示形式與標準的監督評估集高度相關（等級相關性 > 0.94）。我們在數百種增強策略，訓練設置和網絡體系結構之間建立了這種關聯，並提供了一種算法（SelfAugment），可以自動有效地選擇增強策略，而無需使用監督評估。儘管未使用任何標記數據，但學習到的增強策略與使用詳盡監督評估確定的增強策略具有相當的性能。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/Ko2rNqifzNtREm8cT76cRA

猜你喜歡