知識圖譜能否拯救 NLP 的未來?

知識圖譜是 NLP 的未來嗎?

2021 年了,不少當年如日中天技術到今天早已無人問津,而知識圖譜這個 AI 界的大 IP 最火的時候應該是 18,19 年,彼時上到頭部大廠下到明星創業公司都在 PR 自己圖譜 + NLP 佈局能夠賦予 AI 認知能力。到了當下這個 AI 總體降溫的時間節點,我們是時候冷靜思考知識圖譜的未來到底該何去何從了。

回到這個問題本身:知識圖譜是否是 NLP 的未來呢?

我的看法:知識圖譜不是 NLP 的未來,因爲知識圖譜是另外一種與 NLP 有很多交集的技術。在目前所有已知的發展方向中,知識圖譜是最有可能長期和 NLP 互利共生的技術。

那麼,知識圖譜和 NLP 到底是什麼關係呢?直覺上看,機器學習可以類比我們人類學習。回顧一下我們自己的學習過程,大腦和感官主要負責信息獲取、處理、分析、決策。對於簡單問題或少數天才,接受到信息後,只需要在大腦中思考一遍即可得出結論。但是對於複雜問題,比如工作彙報或期末考試,只靠大腦很難記住所有信息,這個時候,很多人都會選擇將一些加工過的結構化或半結構化的知識整理成筆記,方便需要的時候快速回顧。

發現了嗎?大腦的角色非常類似 NLP 以及其他 ML 技術,而筆記幾乎就是 KG 的靈感來源。具體來說,NLP 在圖譜構建過程中舉足輕重,而圖譜又通過引入知識的方式反哺 NLP。

不少證據已經表明諸如 Bert 之類的預訓練語言模型本身已經存儲了知識,就像我們的大腦中也存在一些關鍵記憶一樣,但它不可能將所有現實世界中的事實全部內化,猶如人腦不可能記住所有見過的東西一樣,而知識圖譜通過引入知識能緩解 NLP 的學習壓力。另一個嚴重的問題是,由於 NLP 技術目前遠沒有人腦智能,模型在訓練中記住的知識實際上是不可控的(此處可以圍觀隔壁的 AI 偏見問題 [1]),這對 NLP 技術的落地應用是一個需要考慮的風險,而在可解釋性方面,知識圖譜是 Bug 級的存在。

知識圖譜如何賦能 NLP 技術?

NLP 技術如何賦能圖譜構建的資料很多,知識圖譜落地應用近些年也是進展地如火如荼,但,知識圖譜如何賦能 NLP 技術這個話題聊的人卻不太多。

我自己總結了最近幾年 KG 賦能 NLP 技術的一些打法,歡迎補充~

預訓練中引入知識

代表工作:

ERNIE[2],使用短語和實體 mask 策略在中文 NLP 任務上取得了較好的效果,其中短語和實體來自 KG

圖 2. ERNIE

K-BERT[3],預訓練過程中注入相關的 KG 三元組,爲模型配備領域知識,提高模型在特定領域任務上的性能,同時降低大規模預訓練成本。

圖 3. K-BERT

信息抽取中做遠程監督

用 KG 對齊文本做遠程監督標註數據是信息抽取領域的大殺器,能夠有效降低人工標註成本,可以將實體抽取、關係抽取、事件抽取等子任務一網打盡,用過的小夥伴都說好。

圖 4. 遠程監督

實體鏈接中引入實體信息

實體鏈接,就是把文本中的 mention 鏈接到 KG 裏的 entity 的任務。如下圖所示 [4]:

圖 5. 實體鏈接

顯然,KG 中的實體信息,如實體描述、實體屬性、實體 embedding 以及實體間關係等都是該任務的關鍵特徵,想深入瞭解的朋友請移步 [4]。

文本生成中融合知識

通過知識圖譜中的顯示事實來指導生成文本是實現可控文本生成的一個重要方向,如下所示 [5]:

圖 6. 文本生成

具體大致分爲 4 種較爲典型的方式 [6]:

想詳細瞭解的朋友請移步 [6]。

語義匹配中引入關鍵詞信息

在深度語義匹配任務中,有人發現,通過文本中關鍵詞之間的交互即可較爲容易的找到匹配對象,與其他詞彙關係不大 [7][8]。

圖 7. 語義匹配 case 

因此,考慮通過從 KG 中引入特定領域的關鍵詞表,然後在建模時 highlight 關鍵詞的重要度,從而達到更好的效果 [8]。

圖 8. 關鍵字注意力機制

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/5RMjhKbuHvsGQMn8LzaxYQ