圖對比學習的最新綜述

對比學習作爲一種自監督式的深度學習範式, 在計算機視覺、自然語言處理等領域取得了矚目的成績。受這些成功的對比學習模型的啓發, 近年來大量研究者嘗試將其拓展到圖數據上, 這爲推動圖對比學習的發展提供了堅實的基礎。該領域現有的綜述主要關注於傳統的圖自監督學習任務, 而缺少對圖對比學習方法的梳理和歸納。爲了更好地幫助相關領域的研究者, 該文梳理了近些年來的圖對比學習模型, 通過將現有工作歸納到一個統一的框架下, 突出其發展脈絡。最後該文總結了圖對比學習常用的數據集和評價指標, 並展望了該領域未來的發展方向。

0 引言

圖數據是一種描述物體和物體之間關聯關係的抽象數據類型, 它廣泛存在於各個領域。例如, 在社交網絡中, 用戶和用戶之間的關注關係構成了社交關係圖; 在化學領域, 原子和它們之間的化學鍵構成了化合物分子圖; 在物流領域, 城市和它們之間的道路構成了交通路網圖 [1-2]。作爲實際場景中最常見的信息載體, 圖數據蘊含着豐富信息, 因此對圖數據的分析研究具有重要的價值。能否很好地感知與理解圖數據, 從中挖掘有用的信息, 是解決很多實際問題的關鍵。例如, 鏈接預測、節點分類、社區發現、推薦系統、新藥發現等都是與圖數據相關的實際問題 [1-2]。傳統的圖數據分析通常採用監督學習的框架, 即通過人爲特徵提取或端到端圖深度學習模型將圖數據作爲輸入, 經過訓練後, 挖掘圖數據中的有效信息, 輸出預測結果 [3-4]。雖然這類圖監督學習方法在很多任務上取得了顯著成功, 但仍面臨着以下問題:①依賴大量的人工標註數據;②由於過擬合導致泛化能力差以及面向標籤相關的攻擊時模型魯棒性差 [5]。爲了解決上述問題, 不依賴於人工標註的自監督學習正在成爲圖深度學習的趨勢 [1-2,6-7]。其中, 對比學習是一類重要的自監督學習方法, 隨着其在計算機視覺、自然語言處理等領域取得成功 [8], 如何將對比學習應用在圖數據上, 開始受到研究者的關注。圖數據比語音、文本、圖像更加複雜, 如何設計有效的圖對比學習模型仍面臨着諸多挑戰。

爲了更好地幫助該領域的發展, 已有研究者梳理了近些年來關於圖自監督學習的相關工作, 並且形成綜述 [5,7,9-10]。但這些綜述主要關注傳統的圖上自監督任務, 並沒有針對圖對比學習的方法進行詳細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在統一的框架下對比現有的方法, 突出現有工作的異同點及其發展脈絡, 從而幫助研究者更好地梳理現有工作, 期望能激發對圖對比學習方法新的思考。本文組織結構如下: 第 1 節介紹圖對比學習問題及其涉及的相關背景知識, 並給出形式化定義; 第 2 節梳理了節點級的圖對比學習方法; 第 3 節整理了邊級別的圖對比學習; 第 4 節整理了圖級別的圖對比學習方法; 第 5 節整理介紹了將圖對比學習應用在更復雜場景下的拓展; 第 6 節總結了常用的評價數據集和評價指標; 第 7 節分析整理了圖對比學習現存的問題和未來可能的發展方向; 最後一節對全文進行了總結。

1 問題定義和相關背景

對比學習是一種判別式的學習方法, 其目的是讓相似的樣本學到相近的表示, 同時讓不相似樣本的表示互相遠離。 對比學習在文本[19]、語音[20]、圖像 [21-25] 等領域取得了顯著的效果提升, 受到了廣泛關注。對比學習在這些領域取得成功, 爲研究者設計圖對比學習的框架打下了堅實的基礎。圖對比學習期望學到一個編碼模型, 使得相似的節點 (圖) 經過編碼模型後得到相似的表示, 不相似的節點 (圖) 得到差異較大的表示。現有的方法可以總結成一個統一的框架, 如圖 1 所示, 首先定義正負例並利用正例生成器和負例生成器分別得到正負樣本。接着將這些樣本輸入到編碼模型後得到對應的表示。最後設計一個將正負樣本表示區分開的損失函數, 進行參數優化。目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損失函數的形式。我們在圖 1 中用虛線框出了這三部分。

應用圖對比學習的典型範式如圖 2 所示, 包括無監督表示學習、無監督預訓練、輔助學習三種方式 [6]。其中, 無監督表示學習和無監督預訓練是兩階段的訓練範式, 輔助學習是一階段聯合優化的訓練範式。無監督表示學習利用對比學習爲每個節點 (或圖) 學習向量表示。接着固定這些表示作爲輸入去訓練模型解決下游任務。無監督預訓練範式, 同樣先用對比學習無監督地學習一個編碼器。但在解決下游任務時, 不僅利用標籤信息更新預測層的參數, 同時也微調編碼器的參數。輔助學習範式是指在主任務損失函數的基礎上添加對比學習損失作爲正則項, 聯合優化這兩項損失函數進行參數更新。

2 節點級圖對比學習方法

正負例的定義是現有的圖對比學習方法關鍵, 不同的定義方式需要不同的編碼模型和損失函數。根據對比類型可以將現有方法分成實例對比和跨級別對比兩類。實例對比是指同一個樣本的不同增強樣本之間的對比, 跨級別對比是指不同級別對象之間的對比, 例如, 節點級對象和子圖級對象的對比。同時, 對於每一個模型, 將從正負例的定義與產生方式以及損失函數的形式兩個方面進行介紹。表 1 總結了本節介紹的圖對比學習框架, 並且對比了不同模型使用的增強方式。

3 邊級別圖對比學習

在現實的圖中, 節點往往表現出同質性, 即在圖中相近的節點往往具有相似的性質 [1]。例如, 存在引用關係的論文往往屬於同一個領域; 在社交網絡中兩個用戶共同好友越多, 他們是好友關係的可能性就越高。

4 圖級別圖對比學習

圖級別的對比學習框架在近些年來也受到了廣泛的關注, 其在生物、化學、醫藥領域發揮了關鍵的作用。但該領域處於剛起步的節點, 因此相比於節點級的對比學習, 圖級別對比學習的研究工作相對較少。You 等人 [53] 提出的 GraphCL 是將基於實例的節點級圖對比學習框架應用到圖級別對比學習上的典型模型, 其框架如圖 13 所示。

5 圖對比學習的拓展

前文介紹了同質網絡上的圖對比學習框架, 而現實中的圖數據往往具有復雜的結構, 無法直接應用上述的圖對比學習模型。因此一些研究者開始將圖對比學習拓展到不同類型的圖上。此外, 在實際場景中往往會伴隨着監督信息, 如何將圖對比學習框架和監督信息結合也是一個重要的拓展方向。

6 圖對比學習方法的評價

不同的圖對比學習方法的優劣, 往往通過其在下游任務上的表現來評判。常見的下游任務在 1.4 節中已經進行了說明, 本節主要介紹常用的節點級任務的數據集和圖級任務的數據集以及評價指標。

7 挑戰與未來展望

圖對比學習框架在節點級任務、邊級任務和圖級任務上都取得了成功, 但目前仍有如下一些問題待解決。

7.1 圖增強操作

圖數據的增強是圖對比學習框架中非常重要的組成部分, 其爲節點 / 圖提供了更加豐富的上下文信息, 從而幫助節點 / 圖學到更優質的表示。在圖像領域, 可以比較容易地確定增強後的圖片仍然與原圖片反映同一類別的物體。由於圖數據本身就是一種抽象的數據結構, 應用現有的增強操作 (如增邊刪邊, 隱藏部分特徵維度) 後, 難以直觀判斷原來的節點 / 圖是否保持類別不變。因此設計增強後類別保持不變的圖增強操作是未來重要的發展方向。此外如何判斷哪種數據增強的方式是對於對比學習有效的, 也是一個重要方向。已有工作試圖尋找在圖像領域哪種增強是有效的 [68], 但在圖領域仍然等待被探索。

7.2 基於圖對比學習的預訓練模型

預訓練旨在通過自監督學習從大量數據中學到通用的語義信息, 並將學到的知識遷移到下游的任務中。目前預訓練模型在很多領域都取得了最佳的效果, 具有巨大的發展潛力。圖對比學習方法爲圖上的大規模預訓練奠定了很好的框架基礎。然而, 現有的圖對比學習主要關注於在同一圖上模型遷移到下游任務上的效果 [34,35,39-42,52]。這些模型未考慮模型跨數據集遷移的能力。雖然近年來有研究提出了具有一定跨數據遷移能力的圖對比學習模型 [45], 但該方法只適用於沒有屬性的同質信息網絡, 侷限性較大。因此如何設計具有跨數據集遷移能力的圖對比學習模型是未來大規模圖預訓練應用中亟待解決的重要問題。

7.3 對比學習的理論分析

雖然對比學習的框架在很多領域都取得了顯著的提升, 但是該框架爲何能提升表示的質量, 以及其和下游任務之間有什麼關聯、什麼樣的對比任務更有效等仍然值得探索。雖然在圖像領域有工作開始分析對比學習有效的原因 [69-70], 但在圖數據領域的理論分析仍然是空白的。

7.4 實際場景的應用

如何將圖對比學習應用在實際場景中提升實際任務的效果, 也是一個潛力巨大的方向。目前有研究者嘗試在推薦系統 [71-73]、藥物分類[74-75] 領域利用圖對比學習解決某些關鍵問題。因此, 如何利用圖對比學習解決更多實際的圖分析問題是具有重大研究意義的方向。

7.5 大規模圖上對比學習

現有的圖對比學習往往需要大量的負樣本, 才能學好節點 / 圖表示。但在實際的場景中, 圖的規模往往非常的巨大。因此大量的負樣本需要巨大的內存和計算代價。在圖像領域已經有一些工作去探索如何利用更少的負樣本 [76], 或者不使用負樣本的方式來減少計算代價 [46,77]。因此如何設計適用於大規模網絡的圖對比學習也是未來發展方向之一。

7.6 更公平的方法對比

本文從方法上對比了不同圖對比學習框架的異同。但由於不同模型適用的數據集不同, 實驗設定上也有差異, 從而導致難以從實驗結果上判定哪個框架更有效。但是從實驗上對比不同模型的優劣對於圖對比學習的發展有着至關重要的作用。因此設計一個基準實驗框架, 更公平地對比不同方法也是一個重要的方向。

8 結束語

基於深度學習的圖分析方法在很多任務上取得顯著的效果, 而做好節點 / 圖表示是其中的關鍵。近年來基於對比學習的表示學習框架在圖像等領域取得了成功, 這爲圖對比學習框架提供了堅實的基礎。本文對近年來出現的圖對比學習框架進行了分析總結, 將圖對比學習框架總結成三個重要的部分, 分別是正負例的定義方式、編碼器模型的設計以及損失函數的設計三個部分。本文圍繞圖對比學習展開, 梳理總結了近些年來重要的圖對比學習工作, 同時提出了一些仍未被很好解決的問題, 以及未來可能的研究方向, 嘗試爲研究人員建立一個較完整的研究視圖, 希望能爲進一步推進該領域的研究提供一定的幫助。

論文地址：http://jcip.cipsc.org.cn/CN/Y2023/V37/I5/1

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/qGLJVHy27KLoCf6Rub9Txw