谷歌發佈視頻全景分割數據集！順帶開發個模型屠榜 - CVPR 2021

==================================================================================================================================================

來源：google AI blog

本文轉載自：新智元 | 編輯：LRS

對於人來說，看一張平面照片能夠想象到重建後的 3D 場景佈局，能夠根據 2D 圖像中包含的有限信號來識別對象，確定實例大小並重建 3D 場景佈局。

這個問題有一個術語叫做光學可逆問題 inverse optics problem，它是指從視網膜圖像到視網膜刺激源的模糊映射。

現實世界中的計算機視覺應用，例如自動駕駛就嚴重依賴這些功能來定位和識別 3D 對象，這需要 AI 模型來推斷投影到 2D 圖像的每個 3D 點的空間位置、語義類別和實例標籤。

從圖像重建 3D 世界的能力可以分解爲兩個獨立的子任務：單目深度估計（從單個圖像預測深度）和視頻全景分割（實例分割和語義分割）。

研究人員通常對每個任務提出不同的模型，通過在多個任務之間共享計算的模型權重。在實際應用的時候，將這些任務與統一的計算機視覺模型一起處理可以簡化部署提高效率。

基於這個研究背景，Google 提出一個全新的模型 ViP-DeepLab，通過深度感知視頻全景分割來學習視覺感知，已被 CVPR 2021 接受，旨在同時解決單目深度估計和視頻全景分割。

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

論文：https://arxiv.org/abs/2012.05258

數據集：https://github.com/joe-siyuan-qiao/ViP-DeepLab

論文中還提出了兩個數據集，並提出了一種稱爲深度感知視頻全景質量（DVPQ）的新評估指標，這個新指標可以同時評估深度估計和視頻全景分割。

ViP-DeepLab 是一個統一的模型，可以對圖像平面上的每個像素聯合執行視頻全景分割和單目深度估計，並在子任務的幾個學術數據集取得了 sota 結果。

ViP-DeepLab 通過從兩個連續的幀作爲輸入來執行其他預測，輸出包括第一幀的深度估計，它爲每個像素分配一個深度估計值。

此外，ViP-DeepLab 還對出現在第一幀中的對象中心執行兩個連續幀的中心迴歸，此過程稱爲中心偏移預測，它允許兩個幀中的所有像素分組到出現在第一幀中的同一對象。如果未將新實例匹配到先前檢測到的實例中，則會出現新實例。

ViP-DeepLab 的輸出可以用於視頻全景分割。連接兩個連續的幀作爲輸入。語義分割輸出將每個像素與其語義類別相關聯，而實例分割輸出則從與第一幀中的單個對象相關聯的兩個幀中識別像素，輸入圖像來自 Cityscapes 數據集。

論文中在多個流行的基準數據集上測試了 ViP-DeepLab，包括 Cityscapes-VPS，KITTI 深度預測和 KITTI 多對象跟蹤和分段（MOTS）。

ViP-DeepLab 都取得了 SOTA 的結果，在 Cityscapes-VPS 測試上，其視頻全景質量（VPQ）大大優於以前的方法，達到了 5.1％。

在 KITTI 深度預測基準上進行單眼深度估計的比較，對於深度估算指標，值越小，性能越好。儘管差異可能看起來很小，但在此基準上性能最高的方法通常在 SILog 中的間隙小於 0.1。

此外，VIP-DeepLab 也在 KITTI MOTS 行人和汽車排名度量使用新的度量標準 HOTA，都取得了顯著提升。

最後，論文中還爲新任務提供了兩個新的數據集，即深度感知視頻全景分割，並在其上測試了 ViP-DeepLab，而這個模型的結果將成爲社區進行比較的基準模型。

ViP-DeepLab 具有簡單的體系結構，可在視頻全景分割，單目深度估計以及多對象跟蹤和分割方面實現最先進的性能，這個模型也能幫助進一步研究對 2D 場景中的真實世界。

參考資料：

https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/UhzvB8u2pfOfF0Ogyx3iNQ