用雙注意力模塊來做語義分割

作者｜Umer Rasheed 編譯｜ronghuaiyang

本文對雙注意網絡進行場景分割進行簡要概述。

論文鏈接：https://arxiv.org/abs/1809.02983

圖 1，雙注意力網絡

本文認爲，儘管編碼器 - 解碼器結構是一種標準的語義分割方法，近年來取得了很大的進展，但它嚴重依賴於局部信息，可能會帶來一些偏見，因爲無法看到全局信息。本文基於自注意機制，通過捕獲豐富的上下文依賴關係來解決這一問題。

本文提出了雙注意網絡 (DANet)，該網絡在擴展的 FCN 基礎上附加兩個注意力模塊 (位置注意力模塊和通道力注意模塊)，分別在空間維度和通道維度上建模語義相關性。位置注意力模塊選擇性地聚合所有位置的特徵。相似的特徵是相互關聯的，無論它們的距離如何。同時，通道注意力模塊選擇性地強調相互依賴的通道圖。該網絡將兩個注意模塊的輸出相加，進一步改進特徵表示，從而提高語義分割的準確性。

下文概述了下列情況：

雙注意力網絡
位置注意力模塊
通道注意力模塊
實驗結果

圖 1 表示了圖像通過一個帶膨脹的殘差塊的整體網絡。然後將擴展後的網狀區域的局部特徵輸入兩個並行卷積層，分別傳遞到位置注意力塊和通道注意力塊。兩個注意力模塊的輸出通過另一個卷積層進行變換，計算元素和完成特徵融合。最後通過卷積層生成最終的預測圖。

圖 2，位置注意力模塊

爲了在局部特徵上模擬豐富的上下文關係，引入了位置注意力模塊。位置注意力模塊將範圍更廣的上下文信息編碼爲局部特徵，從而增強了局部特徵的表示能力。

在位置注意力模塊中，給定一個局部特徵 a∈R (C×H×W)，首先將其輸入一個卷積層，分別生成兩個新的特徵圖 B 和 C，其中 {B, C}∈R (C×H×W)。然後這些特徵圖 reshape 爲 R (C×N)，其中 N = H×W 是像素的數量。然後在 C 與 B 的轉置之間進行矩陣乘法，應用 softmax 層計算空間注意力圖 S∈R(N×N)。兩個位置的特徵表示越相似，它們之間的相關性就越大。同時，將特徵圖 A 送入卷積層，生成新的特徵圖 D∈R(C×H×W)，並將其 reshape 爲 R(C×N)。然後在 D 和 S 的轉置之間進行矩陣乘法，並將結果 reshape 爲 R (C×H×W)。最後，將其與尺度參數α相乘，並與特徵圖 A 進行元素求和運算，得到最終輸出 E∈R (C×H×W)。將尺度參數α初始化爲 0，逐步學習權值。

圖 3，通道注意力模塊

每個高級特徵的通道圖都可以看作是一個類特有的響應，不同的語義響應之間相互關聯。通過利用通道圖之間的相互依賴性，可以強調相互依賴的特徵圖，並改進特定語義的特徵表示。因此，提出了一個通道注意例模塊來顯式地建模通道間的相互依賴性。

在通道注意力模塊中，通道注意力圖 X∈R (C×C) 是從原始特徵圖 A∈R (C×H×W) 中直接計算出來的。具體來說，將 A reshape 成 R(C×N)，然後將 A 與 A 的轉置進行矩陣乘法，最後應用 softmax 層得到通道注意力圖 X∈R(C×C)。此外，在 X 和 A 的轉置之間進行矩陣乘法，其結果被 reshape 爲 R (C×H×W)。然後將結果與尺度參數β相乘，並與 A 進行元素求和運算，得到最終輸出 E∈R (C×H×W)。參數β從 0 逐步學習權值。

注意，注意力模塊很簡單，可以直接插入到現有的 FCN 管道中。

本文分別對有注意模力塊和沒有注意力模塊時的結果進行了詳細的比較。本文進行了一項全面的消融研究，將結果與其他最先進的語義分割網絡進行比較。

圖 4，在 Cityscapes 數據集上可視化位置注意力的結果

圖 5，在 Cityscapes 數據集上的通道注意力的可視化結果

消融實驗表明，雙注意力模塊能有效地捕獲長距離上下文信息，並給出更精確的分割結果。注意力網絡在 4 個場景分割數據集上均取得了優異的性能。

英文原文：https://umerrasheed.medium.com/review-dual-attention-network-for-scene-segmentation-1be813289ca4

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/w-Blb3vcdDBjdLsQ6Xumzw

猜你喜歡