UP-DETR:用無監督的方式對 Transformer 進行預訓練來做物體檢測

作者:Synced

編譯:ronghuaiyang

不僅對 CNN 的 backbone 預訓練,Transformer 也要預訓練,而且還是無監督的。

論文地址:https://arxiv.org/pdf/2011.09094.pdf

華南理工大學和騰訊微信人工智能研究人員的一項新研究是利用 Transformer 架構進行目標檢測的最新成果。該團隊提出了一個他們稱爲 random query patch detection 的任務,用無監督的方式預訓練 DETR(檢測變壓器) 的目標檢測。無監督預訓練的 DETR (UP-DETR) 顯著提高了 DETR 的性能,在流行的目標檢測數據集 PASCAL VOC 和 COCO 上具有更快的收斂速度和更高的精度。

今年 5 月,Facebook AI Research 推出了 DETR 框架,通過 Transformer 編碼器 - 解碼器架構,將物體檢測視爲直接預測問題。它已經達到了與 SOTA 方法 (如 Faster R-CNN 基線) 競爭的性能。

“然而,DETR 帶來了訓練和優化方面的挑戰,這需要大規模的訓練數據和超長的訓練計劃。” 該團隊指出。這樣的缺點已經阻礙了 DETR 性能的進一步改進。研究人員深入研究了 DETR 結構,確定 CNN 骨幹已被預先訓練,以提取良好的視覺表徵,但 Transformer 模塊未被預訓練。

這是提高性能的關鍵嗎?無監督視覺表徵學習在設計良好的代理任務方面取得了顯著進展,MoCo 和 SwAV 等模型脫穎而出。但目前的代理任務不能直接應用於訓練前的 DETR,主要集中在空間定位學習,而不是基於圖像實例或聚類的對比學習。

一般來說,無監督學習計算機視覺 pipeline 包括一個代理任務和一個真正的下游任務,這可能涉及分類或檢測不充分的標註數據。Pretext 任務需要學習將用於下游任務的視覺表徵。

團隊着手設計一種新的基於目標檢測的 DETR 架構的預訓練 Transformer 的代理任務,開發了一種 random query patch detection method 來預訓練一個不需要人工標註的 DETR 檢測器。從輸入圖像中隨機裁剪多個 query patch 後,對 Transformer 進行預訓練,用於檢測和預測給定圖像中 query patch 的邊界框。這一方法解決了兩個關鍵問題:

在評估中,UP-DETR 以更高的精度和更快的收斂速度大大優於 DETR。在具有挑戰性的 COCO 數據集上,UP-DETR 在 ResNet50 骨幹下提供了 42.8 AP(平均精度),在收斂速度和精度上都優於 DETR。

研究人員表示,他們希望未來的研究能夠將 CNN 和 Transformer 的預訓練整合到一個統一的端到端框架中,並將 UP-DETR 應用於額外的下游任務,如 few-shot 目標檢測和目標跟蹤。

英文原文:https://medium.com/syncedreview/up-detr-unsupervised-random-query-patch-detection-pretrains-transformers-for-object-detection-6655bc1473fa

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/UJD-gfe4lczgdBzLchsKmA