UP-DETR：用無監督的方式對 Transformer 進行預訓練來做物體檢測

作者：Synced

編譯：ronghuaiyang

不僅對 CNN 的 backbone 預訓練，Transformer 也要預訓練，而且還是無監督的。

論文地址：https://arxiv.org/pdf/2011.09094.pdf

華南理工大學和騰訊微信人工智能研究人員的一項新研究是利用 Transformer 架構進行目標檢測的最新成果。該團隊提出了一個他們稱爲 random query patch detection 的任務，用無監督的方式預訓練 DETR(檢測變壓器) 的目標檢測。無監督預訓練的 DETR (UP-DETR) 顯著提高了 DETR 的性能，在流行的目標檢測數據集 PASCAL VOC 和 COCO 上具有更快的收斂速度和更高的精度。

今年 5 月，Facebook AI Research 推出了 DETR 框架，通過 Transformer 編碼器 - 解碼器架構，將物體檢測視爲直接預測問題。它已經達到了與 SOTA 方法 (如 Faster R-CNN 基線) 競爭的性能。

“然而，DETR 帶來了訓練和優化方面的挑戰，這需要大規模的訓練數據和超長的訓練計劃。” 該團隊指出。這樣的缺點已經阻礙了 DETR 性能的進一步改進。研究人員深入研究了 DETR 結構，確定 CNN 骨幹已被預先訓練，以提取良好的視覺表徵，但 Transformer 模塊未被預訓練。

這是提高性能的關鍵嗎？無監督視覺表徵學習在設計良好的代理任務方面取得了顯著進展，MoCo 和 SwAV 等模型脫穎而出。但目前的代理任務不能直接應用於訓練前的 DETR，主要集中在空間定位學習，而不是基於圖像實例或聚類的對比學習。

一般來說，無監督學習計算機視覺 pipeline 包括一個代理任務和一個真正的下游任務，這可能涉及分類或檢測不充分的標註數據。Pretext 任務需要學習將用於下游任務的視覺表徵。

團隊着手設計一種新的基於目標檢測的 DETR 架構的預訓練 Transformer 的代理任務，開發了一種 random query patch detection method 來預訓練一個不需要人工標註的 DETR 檢測器。從輸入圖像中隨機裁剪多個 query patch 後，對 Transformer 進行預訓練，用於檢測和預測給定圖像中 query patch 的邊界框。這一方法解決了兩個關鍵問題：

多任務學習：避免 query patch 檢測破壞分類特徵
多 query 定位：不同的目標 query 關注不同的位置區域和框大小。針對多 query patches ，研究人員開發了 object query shuffle 和 attention mask 方法來解決 query patches 和 object query 之間的分配問題。

在評估中，UP-DETR 以更高的精度和更快的收斂速度大大優於 DETR。在具有挑戰性的 COCO 數據集上，UP-DETR 在 ResNet50 骨幹下提供了 42.8 AP(平均精度)，在收斂速度和精度上都優於 DETR。

研究人員表示，他們希望未來的研究能夠將 CNN 和 Transformer 的預訓練整合到一個統一的端到端框架中，並將 UP-DETR 應用於額外的下游任務，如 few-shot 目標檢測和目標跟蹤。

英文原文：https://medium.com/syncedreview/up-detr-unsupervised-random-query-patch-detection-pretrains-transformers-for-object-detection-6655bc1473fa

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/UJD-gfe4lczgdBzLchsKmA

猜你喜歡