​微信圖片智能裁剪技術介紹

作者:yukunsu

微信的公衆號、視頻號等產品每天有大量的圖片內容,這些圖片的長寬比各異,但是爲了展示的美觀性,在產品的某些場景需要固定圖片長寬比,這就需要算法對圖片自動剪裁。我們自研了一款輕量的圖片智能裁剪框架,基於藝術美學分析與深度學習技術,自動判斷圖片主體區域,裁剪圖片以適配不同尺寸要求。目前該算法已經在微信公衆號的快訊、推薦流、圖片落地頁等多個場景中落地應用,取得了不錯的業務收益。同時該方法也被 AAAI 2024 會議接收錄用。

一、 背景介紹

圖片裁剪的目的是自動挖掘圖片中最具美觀的視圖,廣泛應用於圖片美學構圖,例如縮略 圖生成 [1]、攝影輔助[2] 和肖像推薦 [3] 等。其中,圖片縮略圖或封面裁剪是新興的 User Generated Content (UGC) 領域的重要應用。

如上圖公衆號業務所示,需要將原圖裁剪爲一個 3:4 的尺寸圖片作爲文章封面展示。而封 面圖的美觀與完整性決定了用戶是否願意點擊進入文章閱讀,並直接影響文章或帖子的點擊 率。同時,圖片裁剪的輸出尺寸 (如 1:1,16:9,3:4 等) 會隨着業務的更替變化而進行切換。所以,設計一款輕量並且可以適配不同尺寸要求的通用圖片智能裁剪模型是十分必要的。

二、 挑戰與困難

由於用戶使用不同類型的拍攝設備或不同長寬比的鏡頭將自己拍攝製作的圖片或視頻上傳 到社交媒體平臺,這需要裁剪算法生成固定的長寬比封面圖片展示到前端,以實現內容美觀和 格式統一 ,如上圖所示 (每個圖片上方都標有 UGC 的原始尺寸。爲了直觀解釋,紅色虛線框 表示我們的算法針對固定長寬比生成的裁剪圖片)。相對比學術上的數據集圖片或者是網絡上 一些簡單的單一物體圖片,UGC 圖片裁剪的主要挑戰與困難有四個方面:

  1. UGC 圖片五花八門更加複雜,具有不同的多物體前景和混亂的背景,因此有必要挖掘不同 物體之間的關係以找到最具美感的區域。同時,一些基於顯著性的裁剪方法 [4][5] 可能會無 法準確定位圖片中的主體,從而導致裁剪內容不美觀;

  2. 除了確保裁剪圖片的美觀之外,內容的完整性也至關重要,它向觀看者傳達了主要信息。如圖上圖 (b) 所示,對於一些新聞片段或歌詞視頻封面,裁剪目標應保留圖片中除人物外的 主要屬性,如新聞標題和完整歌詞。對於多人圖片,應避免人臉不完整的情況;

  3. UGC 裁剪通常需要固定寬高比的圖片輸出顯示,如適應上圖 (a) 所示手機端的豎屏顯示和圖 (b)中 PC 端的橫屏展示。因此,一些基於錨點生成的方法 [6][7] 是不合用於該業務場景,因 爲它們模仿目標檢測的範式,並沒有產生有約束的寬高比的候選視圖,這不可避免地大大 降低了它們在實際業務場景中的應用價值;

  4. 在微信平臺下,每天新增的 UGC 圖片是非常多的,這要求圖片裁剪模型需要有快速的響 應,並且工程部署成本低,以處理每天社交媒體上大量的圖片內容。

三、 模型簡介

模型結構方面我們重新設計了一款名爲 Spatial-Semantic Collaborative Cropping Network (S2CNet),目前此項工作已經被 AAAI 2024 接收並錄用。

我們的動機是建立裁剪候選框和所有對象間的組合關係。對於裁剪候選框中的元素,我們 嘗試使網絡捕獲視覺上相互的依賴關係。而對於一些不確定的背景物體,我們學會保留有吸引 力的部分,同時去除多餘的部分。爲了實現這一目標,我們採用自適應注意力圖 (AAG) 來對 區域內容之間的可擴展連接進行建模,而不是使用普通的 transformer 來對視覺像素進行同等 的建模。具體網絡特點如下:

1 Detetction-Head

給定預設定的裁剪框 (模仿文獻[8][9]) 以及對應的輸入圖片作爲輸入,我們首先利用在 Visual Genome 預訓練好的的 Yolov6 檢測器來挖掘 Top-K 的潛在視覺對象,如上圖 (a) 所示;

2 Light-weight Backbone

我們通過將圖片傳遞到輕量的卷積主幹網絡來獲得特徵圖 feature map;

3 RoIAlign + RoDAlign

我們應用 RoIAlign (RoI) 和 RoDAlign (RoD) 進行池化操作,獲取每個潛在對象區域以及裁剪框區域的特徵,後續視爲 node 節點輸送給圖卷積網絡;

4 Adaptive Attention Graph(AGG)

不同的節點特徵輸入到提出的網絡中以捕獲高階信息。最後通過聚合更新的特徵來預測美 學分數 (MOS)。其中 AAG 模塊如上圖(b) 所示,是一個變種的 transformer 模塊。我們綜合地 考慮了不同圖片節點 feature 之間的外觀語義和空間距離關係。具體地,我們構建了兩個 Ma 和 Mp 相似度矩陣,分別代表 appearance 和 position similarity。圖片節點 token 首先經過一 個 FAG 圖卷積模塊,其作用是動態生成具有適當重要性的 token 來執行後續的圖形理解。隨 後,在我們的 AAG 模塊中,我們將 Ma 和 Mp 相似度矩陣融入到 self-attention 當中,如下公 式所示:

數據集中爲每個預定義裁剪框打好了美學分數,我們通過標註數據端到端訓練網絡,最終 通過排序美學得分便可以輸出得分最高的裁剪框。假如在固定尺寸比例約束下,可以首先過濾 預定義的裁剪框,保留符合特定比例的裁剪框輸送進入網絡進行計算。

四、 模型效果

1、 定量分析

目前我們的網絡在學術集最權威的 3 個數據集都獲得 SOTA 的成績:

2、 定性分析:

下圖展示了定性比較,從中我們可以觀察到:

  1. 我們的方法可以產生更美觀的裁剪視圖。它們不僅保留了照片的主要前景,而且可以更大程度地有效保留或去除背景的某些區域以進行構圖,並且最終的裁剪效果與數據集中的 Ground-Truth 標註更加吻合;

  2. 我們的方法可以保持圖片內容的完整性。如圖最後一行所示,雖然其他方法成功地裁剪了主要人物並獲得了相對較好的視圖,但它們丟失了圖片的一些有用屬性,這可能會向用戶傳遞不完整的信息。換句話說,裁剪除了保持圖片美觀之外,還需要保證內容的完整性,這一點在 UGC 裁剪中尤爲重要。

3、 固定尺寸裁剪

在實際應用中,裁剪通常是在特定約束條件下進行的。基於此,我們使用不同的常見長寬比來可視化裁剪結果。如下圖所示,我們的模型可以在不同的約束下找到好的裁剪視圖,這證 明瞭我們的模型的能力能夠滿足 UGC 裁剪的需求,包括封面圖片裁剪、縮略圖和圖標生成。

五、 業務應用

目前,我們提出的圖片智能裁剪技術已經在微信公衆號的快訊、推薦流、圖片落地頁等多 個場景中落地應用。我們的服務支持任意比例的裁剪,包括常見的 1:1、3:4、4:3、16:9、9:16 等比例,同時也支持定製化的特殊比例要求裁剪。我們服務響應速度可以滿足絕大數場景,CPU 單機服務器 QPS 可以達到 100 左右。大盤實驗下產品曝光點擊率顯著提升,線上應用效 果如下圖所示。

六、 總結與展望

圖片裁剪作爲基礎的視覺能力已經成爲社交內容平臺一個必要的功能,用於以更加經濟且 更適合佈局的方式展示圖片。通過在線調整圖片的構圖,可以輔助實現精準的二次構圖。我們 也將持續跟進業界發展,隨時適配不同的業務發展,不斷迭代優化,也希望和業界的其他同行 進行更加深入的交流學習,一起爲社區打造更智能的圖片基礎服務。

注:文中涉及樣本圖片均來自公開數據集

參考文獻

[1] Chen, Huarong, et al. "CropNet: Real-time thumbnailing." Proceedings of the 26th ACM international conference on Multimedia. 2018.

[2] Wei, Zijun, et al. "Good view hunting: Learning photo composition from dense view pairs." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[3] Zhang, Xiaoyan, et al. "Pose-based composition improvement for portrait photographs." IEEE Transactions on Circuits and Systems for Video Technology 29.3 (2018): 653-668.

[4] Tu, Yi, et al. "Image cropping with composition and saliency aware aesthetic score map." Proceedings of the AAAI conference on artificial intelligence. Vol. 34. No. 07. 2020.

[5] Cheng, Yang, Qian Lin, and Jan P. Allebach. "Re-compose the image by evaluating the crop on more than just a score." Proceedings of the IEEE/CVF Winter Conference on Applications ofComputer Vision. 2022.

[6] Hong, Chaoyi, et al. "Composing photos like a photographer." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[7] Jia, Gengyun, et al. "Rethinking image cropping: Exploring diverse compositions from global views." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[8] Zeng, Hui, et al. "Reliable and efficient image cropping: A grid anchor based approach." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

[9] Zeng, Hui, et al. "Grid anchor based image cropping: A new benchmark and an efficient model." IEEE Transactions on Pattern Analysis and Machine Intelligence 44.3 (2020): 1304-1319.


本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/PGkdqXIOQ7k9qJfaVKCxmw