照片秒變藝術肖像畫，Github 標星 5-2K！

機器之心報道

深度卷積神經網絡已經被廣泛用於顯著目標檢測，並獲得了 SOTA 的性能。來自加拿大阿爾伯塔大學的研究者曾提出了邊界感知顯著目標檢測網絡 BASNet，並衍生出了一系列流行的工具。今年，該團隊又提出了一種用於肖像畫生成的深度網絡架構 U^2-Net，不僅所需的計算開銷較少，而且生成肖像畫具有豐富的細節。

從人臉圖片生成藝術肖像畫的 AI 應用不在少數，但效果驚豔的不多。上面這張圖片中的輸入 - 輸出結果，來源於一個 GitHub 熱門項目 U^2-Net (U square net)，開源至今已經獲得了 1.7K 的 star 量。

這項研究來自阿爾伯塔大學的一個團隊，論文此前已被國際模式識別大會 ICPR 會議接收。

論文鏈接：https://arxiv.org/pdf/2005.09007.pdf
項目地址：https://github.com/NathanUA/U-2-Net

最近，研究者又將其應用於人臉肖像畫的生成中，並基於 APDrawingGAN 數據集爲此類任務訓練了新的模型。不管是兒童肖像還是成年男性、成年女性，都能獲得相當細緻的生成結果：

近年來，顯著性目標檢測廣泛應用於視覺跟蹤和圖像分割等領域。隨着深度卷積神經網絡（CNN）的發展，尤其是全卷積網絡（FCN）在圖像分割領域的興起，顯著性目標檢測技術得到了明顯的改善。

大多數 SOD 網絡的設計都有一個共同的模式，也就是說，它們專注於充分利用現有的基礎網絡提取的深度特徵，例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但這些主幹網絡最初都是爲圖像分類任務設計的。它們提取代表語義含義的特徵，而不是代表局部性細節或全局對照信息，這對於顯著性目標檢測至關重要。並且這些網絡通常需要在 ImageNet 數據上進行預訓練，效率比較低。

爲了解決這個問題，阿爾伯塔大學的研究者提出了 U^2-Net。研究團隊在論文中介紹，U^2-Net 是一個簡單而強大的深度網絡架構，其架構是兩層嵌套的 U 形結構。該研究提出的 ReSidual U-block（RSU）中混合了不同大小的接收域，因此它能夠從不同尺度中捕獲更多的語境信息。此外，RSU 中使用了池化操作，因此在不顯著增加計算成本的情況下，也能夠增加整個架構的深度。

方法

在方法部分，研究者不僅詳細闡釋了其提出的殘差 U-block 以及利用該 U-block 構建的嵌套 U 形架構，而且還描述了該網絡的監督策略和訓練損失。

殘差 U-block

受到 U-Net 網絡的啓發，研究者提出了新型殘差 U-block（ReSidual U-block, RSU），以捕獲階段內的多尺度特徵。RSU-L (C_in, M, C_out) 的結構如下圖 2 (e) 所示，其中 L 表示編碼器中的層數，C_in、C_out 分別表示輸入和輸出通道，M 表示 RSU 內層通道數。

_本研究提出的 RSU 與現有其他卷積塊的結構對比
_

具體而言，RSU 主要有三個組成部件，分別是一個輸入卷積層、一個高度爲 L 的類 U-Net 對稱編碼器 - 解碼器結構以及一個通過求和來融合局部和多尺度特徵的殘差連接。

爲了更好地理解設計理念，研究者在下圖 3 中對 RSU 與原始殘差塊進行了比較。結果顯示，RSU 與原始殘差塊的最大區別在於 RSU 通過一個類 U-Net 的結構替換普通單流卷積，並且通過一個由權重層轉換的局部特徵替換原始特徵。

更值得注意的是，得益於 U 形結構，RSU 的計算開銷相對較少，因爲大多數運算在下采樣特徵圖中應用。下圖 4 展示了 RSU 與其他特徵提取模塊的計算成本曲線圖：

U^2-Net 架構

研究者提出了一種用於顯著目標檢測的新型堆疊 U 形結構 U^n-Net。從理論上講，n 可以設置成任意正整數，以構建單級或多級嵌套 U 形結構。研究者將 n 設置爲 2 以構建二級嵌套 U 型結構 U^2-Net，具體如下圖所示：

具體而言，U^2-Net 主要由三部分組成：（1）6 階段編碼器；（2）5 階段解碼器；（3）與解碼器階段和最後編碼器階段相連接的顯著圖融合模塊。

總的來說，U^2-Net 的設計構建了具有豐富多尺度特徵以及較低計算和內存成本的深度架構。此外，由於 U^2-Net 架構僅在 RSU 塊上構建，並且沒有使用任何經過圖像分類處理的預訓練主幹網絡，所以在性能損失不大的情況下 U^2-Net 可以靈活且方便地適應不同的工作環境。

監督

在訓練過程中，研究者使用了類似於整體嵌套邊緣檢測（Holistically-nested edge detection, HED）的深度監督算法。訓練過程定義如下：

訓練過程努力將上述公式 (1) 的整體損失最小化。在測試過程中，研究者選擇將融合輸出 l_fuse 作爲最終顯著圖。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/BDR1CU1NY3ap2Xenawh0Bw

猜你喜歡