圖對比學習的最新綜述
對比學習作爲一種自監督式的深度學習範式, 在計算機視覺、自然語言處理等領域取得了矚目的成績。受這些成功的對比學習模型的啓發, 近年來大量研究者嘗試將其拓展到圖數據上, 這爲推動圖對比學習的發展提供 了堅實的基礎。該領域現有的綜述主要關注於傳統的圖自監督學習任務, 而缺少對圖對比學習方法的梳理和歸 納。爲了更好地幫助相關領域的研究者, 該文梳理了近些年來的圖對比學習模型, 通過將現有工作歸納到一個統 一的框架下, 突出其發展脈絡。最後該文總結了圖對比學習常用的數據集和評價指標, 並展望了該領域未來的發展方向。
0 引言
圖數據是一種描述物體和物體之間關聯關係的 抽象數據類型, 它廣泛存在於各個領域。例如, 在社 交網絡中, 用戶和用戶之間的關注關係構成了社交 關係圖; 在化學領域, 原子和它們之間的化學鍵構成 了化合物分子圖; 在物流領域, 城市和它們之間的道 路構成了交通路網圖 [1-2]。作爲實際場景中最常見 的信息載體, 圖數據蘊含着豐富信息, 因此對圖數據 的分析研究具有重要的價值。能否很好地感知與理 解圖數據, 從中挖掘有用的信息, 是解決很多實際問 題的關鍵。例如, 鏈接預測、節點分類、社區發現、推 薦 系 統、新 藥 發 現 等 都 是 與 圖 數 據 相 關 的 實 際問題 [1-2]。傳統的圖數據分析通常採用監督學習的框架, 即 通過人爲特徵提取或端到端圖深度學習模型將圖數 據作爲輸入, 經過訓練後, 挖掘圖數據中的有效信息, 輸出預測結果 [3-4]。雖然這類圖監督學習方法在很多 任務上取得了顯著成功, 但仍面臨着以下問題:①依 賴大量的人工標註數據;②由於過擬合導致泛化能 力差以及面向標籤相關的攻擊時模型魯棒性差 [5]。爲了解決上述問題, 不依賴於人工標註的自監 督學習正在成爲圖深度學習的趨勢 [1-2,6-7]。其中, 對 比學習是一類重要的自監督學習方法, 隨着其在計 算機視覺、自然語言處理等領域取得成功 [8], 如何將 對比學習應用在圖數據上, 開始受到研究者的關注。圖數據比語音、文本、圖像更加複雜, 如何設計有效 的圖對比學習模型仍面臨着諸多挑戰。
爲了更好地幫助該領域的發展, 已有研究者梳 理了近些年來關於圖自監督學習的相關工作, 並且 形成綜述 [5,7,9-10]。但這些綜述主要關注傳統的圖上 自監督任務, 並沒有針對圖對比學習的方法進行詳 細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在 統一的框架下對比現有的方法, 突出現有工作的異 同點及其發展脈絡, 從而幫助研究者更好地梳理現 有工作, 期望能激發對圖對比學習方法新的思考。本文組織結構如下: 第 1 節介紹圖對比學習問 題及其涉及的相關背景知識, 並給出形式化定義; 第 2 節梳理了節點級的圖對比學習方法; 第 3 節整 理了邊級別的圖對比學習; 第 4 節整理了圖級別的 圖對比學習方法; 第 5 節整理介紹了將圖對比學習 應用在更復雜場景下的拓展; 第 6 節總結了常用的 評價數據集和評價指標; 第 7 節分析整理了圖對比 學習現存的問題和未來可能的發展方向; 最後一節 對全文進行了總結。
1 問題定義和相關背景
對比學習是一種判別式的學習方法, 其目的是 讓相似的樣本學到相近的表示, 同時讓不相似樣本 的表示互相遠離。 對比學習在文本[19]、語音[20]、圖 像 [21-25] 等領域取得了顯著的效果提升, 受到了廣泛 關注。對比學習在這些領域取得成功, 爲研究者設 計圖對比學習的框架打下了堅實的基礎。圖對比學習期望學到一個編碼模型, 使得相似 的節點 (圖) 經過編碼模型後得到相似的表示, 不相 似的節點 (圖) 得到差異較大的表示。現有的方法可 以總結成一個統一的框架, 如圖 1 所示, 首先定義正 負例並利用正例生成器和負例生成器分別得到正負 樣本。接着將這些樣本輸入到編碼模型後得到對應 的表示。最後設計一個將正負樣本表示區分開的損 失函數, 進行參數優化。目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損 失函數的形式。我們在圖 1 中用虛線框出了這三 部分。
應用圖對比學習的典型範式如圖 2 所示, 包括無監督表示學習、無監督預訓練、輔助學習三種方 式 [6]。其中, 無監督表示學習和無監督預訓練是兩 階段的訓練範式, 輔助學習是一階段聯合優化的訓 練範式。無監督表示學習利用對比學習爲每個節點 (或圖) 學習向量表示。接着固定這些表示作爲輸入 去訓練模型解決下游任務。無監督預訓練範式, 同 樣先用對比學習無監督地學習一個編碼器。但在解 決下游任務時, 不僅利用標籤信息更新預測層的參 數, 同時也微調編碼器的參數。輔助學習範式是指 在主任務損失函數的基礎上添加對比學習損失作爲 正則項, 聯合優化這兩項損失函數進行參數更新。
2 節點級圖對比學習方法
正負例 的 定 義 是 現 有 的 圖 對 比 學 習 方 法 關 鍵, 不同的定 義 方 式 需 要 不 同 的 編 碼 模 型 和 損 失 函數。根據對比類型可以將現有方法分成實例對 比和跨級別對比兩類。實例對比是指同一個樣本 的不同增強 樣 本 之 間 的 對 比, 跨 級 別 對 比 是 指 不 同 級 別 對 象 之 間 的 對 比, 例 如, 節 點 級 對 象 和 子 圖級對 象 的 對 比。同 時, 對 於 每 一 個 模 型, 將 從 正負例的 定 義 與 產 生 方 式 以 及 損 失 函 數 的 形 式 兩個方 面 進 行 介 紹。表 1 總 結 了 本 節 介 紹 的 圖 對比學習框架, 並且 對 比 了 不 同 模 型 使 用 的 增 強 方式。
3 邊級別圖對比學習
在現實的圖中, 節點往往表現出同質性, 即在圖中 相近的節點往往具有相似的性質 [1]。例如, 存在引用 關係的論文往往屬於同一個領域; 在社交網絡中兩個 用戶共同好友越多, 他們是好友關係的可能性就越高。
4 圖級別圖對比學習
圖級別的對比學習框架在近些年來也受到了廣 泛的關注, 其在生物、化學、醫藥領域發揮了關鍵的 作用。但該領域處於剛起步的節點, 因此相比於節 點級的對比學習, 圖級別對比學習的研究工作相對 較少。You 等人 [53] 提出的 GraphCL 是將基於實例的 節點級圖對比學習框架應用到圖級別對比學習上的 典型模型, 其框架如圖 13 所示。
5 圖對比學習的拓展
前文介紹 了 同 質 網 絡 上 的 圖 對 比 學 習 框 架, 而現實中的 圖 數 據 往 往 具 有 復 雜 的 結 構, 無 法 直 接應用上述的圖對比學習模型。因此一些研究者 開始將 圖 對 比 學 習 拓 展 到 不 同 類 型 的 圖 上。此 外, 在實際場景中往往會伴隨着監督信息, 如何將 圖對比學習框架和監督信息結合也是一個重要的 拓展方向。
6 圖對比學習方法的評價
不同的圖對比學習方法的優劣, 往往通過其在 下游任務上的表現來評判。常見的下游任務在 1.4 節中已經進行了說明, 本節主要介紹常用的節點級 任務的數據集和圖級任務的數據集以及評價指標。
7 挑戰與未來展望
圖對比學習框架在節點級任務、邊級任務和圖 級任務上都取得了成功, 但目前仍有如下一些問題 待解決。
7.1 圖增強操作
圖數據的增強是圖對比學習框架中非常重要的 組成部分, 其爲節點 / 圖提供了更加豐富的上下文信 息, 從而幫助節點 / 圖學到更優質的表示。在圖像領 域, 可以比較容易地確定增強後的圖片仍然與原圖 片反映同一類別的物體。由於圖數據本身就是一種 抽象的數據結構, 應用現有的增強操作 (如增邊刪 邊, 隱藏部分特徵維度) 後, 難以直觀判斷原來的節 點 / 圖是否保持類別不變。因此設計增強後類別保 持不變的圖增強操作是未來重要的發展方向。此外 如何判斷哪種數據增強的方式是對於對比學習有效 的, 也是一個重要方向。已有工作試圖尋找在圖像 領域哪種增強是有效的 [68], 但在圖領域仍然等待被 探索。
7.2 基於圖對比學習的預訓練模型
預訓練旨在通過自監督學習從大量數據中學到 通用的語義信息, 並將學到的知識遷移到下游的任 務中。目前預訓練模型在很多領域都取得了最佳的 效果, 具有巨大的發展潛力。圖對比學習方法爲圖 上的大規模預訓練奠定了很好的框架基礎。然而, 現有的圖對比學習主要關注於在同一圖 上模型遷移到下游任務上的效果 [34,35,39-42,52]。這些 模型未考慮模型跨數據集遷移的能力。雖然近年來 有研究提出了具有一定跨數據遷移能力的圖對比學 習模型 [45], 但該方法只適用於沒有屬性的同質信息 網絡, 侷限性較大。因此如何設計具有跨數據集遷 移能力的圖對比學習模型是未來大規模圖預訓練應 用中亟待解決的重要問題。
7.3 對比學習的理論分析
雖然對比學習的框架在很多領域都取得了顯著的提升, 但是該框架爲何能提升表示的質量, 以及其 和下游任務之間有什麼關聯、什麼樣的對比任務更 有效等仍然值得探索。雖然在圖像領域有工作開始 分析對比學習有效的原因 [69-70], 但在圖數據領域的 理論分析仍然是空白的。
7.4 實際場景的應用
如何將圖對比學習應用在實際場景中提升實際 任務的效果, 也是一個潛力巨大的方向。目前有研 究者嘗試在推薦系統 [71-73]、藥物分類[74-75] 領域利用 圖對比學習解決某些關鍵問題。因此, 如何利用圖 對比學習解決更多實際的圖分析問題是具有重大研 究意義的方向。
7.5 大規模圖上對比學習
現有的圖對比學習往往需要大量的負樣本, 才 能學好節點 / 圖表示。但在實際的場景中, 圖的規模 往往非常的巨大。因此大量的負樣本需要巨大的內 存和計算代價。在圖像領域已經有一些工作去探索 如何利用更少的負樣本 [76], 或者不使用負樣本的方 式來減少計算代價 [46,77]。因此如何設計適用於大 規模網絡的圖對比學習也是未來發展方向之一。
7.6 更公平的方法對比
本文從方法上對比了不同圖對比學習框架的異 同。但由於不同模型適用的數據集不同, 實驗設定 上也有差異, 從而導致難以從實驗結果上判定哪個 框架更有效。但是從實驗上對比不同模型的優劣對 於圖對比學習的發展有着至關重要的作用。因此設 計一個基準實驗框架, 更公平地對比不同方法也是 一個重要的方向。
8 結束語
基於深度學習的圖分析方法在很多任務上取得 顯著的效果, 而做好節點 / 圖表示是其中的關鍵。近 年來基於對比學習的表示學習框架在圖像等領域取 得了成功, 這爲圖對比學習框架提供了堅實的基礎。本文對近年來出現的圖對比學習框架進行了分析總 結, 將圖對比學習框架總結成三個重要的部分, 分別 是正負例的定義方式、編碼器模型的設計以及損失 函數的設計三個部分。本文圍繞圖對比學習展開, 梳理總結了近些年 來重要的圖對比學習工作, 同時提出了一些仍未被 很好解決的問題, 以及未來可能的研究方向, 嘗試爲研究人員建立一個較完整的研究視圖, 希望能爲進 一步推進該領域的研究提供一定的幫助。
論文地址:http://jcip.cipsc.org.cn/CN/Y2023/V37/I5/1
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/qGLJVHy27KLoCf6Rub9Txw