醫療領域情感分析

前言

醫療實體既能作爲 aspect，又能作爲情感詞。對於一般 aspect，如藥品，行爲等，比較接近以往研究；但是對於疾病，症狀這樣的 aspect，情況複雜。如：" 感冒喫白加黑管用"，對於這裏" 感冒 "來講，只是普通上下文。但是對於" 感冒一週了，誰說能自己好的？"，" 感冒 "是 aspect 且情感是負向，同時，句子裏也出現了" 好 " 這一常見的情感詞。兩者的混雜，使得情感分析相當依賴上下文和領域特點。
大部分疾病實體詞在公開情感詞典中都是負向的，如：感冒，發燒，疼痛等。並且丁香園場景下的很多評論的情感傾向不是單純的正負中，會出現更多樣的情感（如：質疑，吐槽，建議），這是一般的情感詞典裏是無法處理的。所以領域情感詞典的構建也是情感分析中關鍵一步。
存在多種情感，標註或遠監督過程會存在噪音。

本文將從可解釋性，上下文 (aspect 與 sentiment 的潛在關係)，如何處理噪聲數據以及構建領域詞典四個角度，引出相應研究。

一. 可解釋性

《Contextual Sentiment Neural Network for Document Sentiment Analysis》

深度神經網絡已成爲衆多 nlp 任務的首選模型。然而，在需要解釋的情況下，通常避免使用 dnn，因爲這些網絡通常是黑匣子。因此，建立一個高度可預測的神經網絡（NN）模型，並用類似人的方式來解釋其預測過程是一個關鍵問題。那麼在情感分析任務上，應該考慮人類通常是如何判斷每次評論的正負極性的。論文主要考慮了 4 個方面：

詞級原始情感得分：表示評論中每個詞最初的情感，如 good 是正，bad 是負。
詞級情緒轉移分數：該分數表示評論中每個術語的情緒是否發生了變化，如存在否定詞，諷刺，幽默。
詞級語境情緒得分：該得分是指在考慮情緒轉移和全局重要點後，每個詞的積極或消極情緒得分。
概念級上下文情緒得分：該分數表示每個評論的概念級積極或消極情緒，其中一個概念意味着一組相似的術語。

結構簡單來說就是 four interpretable layers+IP Learning：其中 WOSL 採用詞典特徵，SSL 採用否定詞典，GIL 採用 revised self-attention，CCSL 採用 kmeans。

通常情況下，情緒分析模型是使用反向傳播，預測的文檔級情緒與每個評論的正面或負面標籤之間的損失值具有梯度值；但是，當使用這種通用反向傳播方法時，每一層並不代表相應的情緒。因此文本提出了 IP 傳播方法。

二. 上下文 (aspect 與 sentiment 的潛在關係)

《Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding》

aspect 級別情感分析的難點在於：第一，aspect 真正的上下文；第二，同一句中每個 aspect 能夠捕捉到自己的 sentiment。

本文提出了一種基於 topic model 的弱監督方法，使用幾個關鍵字來描述每個 Aspect-Sentiment，無需使用任何帶標籤的樣本。先在 word embedding 空間中學習 Aspect-Sentiment 聯合主題嵌入，通過正則化來強化主題的顯著性。學習了聯合主題向量之後，利用文檔 embedding 和主題 embedding 之間的餘弦相似性對 CNN 進行預訓練，
然後利用 self-train CNN 對未標記文檔進行高置信度預測。

文中提出了幾個關鍵的 joint representation learning，其中包括 aspect--- 上下文， aspect--- 全文，aspect，sentiment 單獨 representation learning，aspect—sentiment 聯合學習。通過邊緣分佈和聯合分佈之間的關係，將聯合主題嵌入的學習與單獨的方面 / 情感主題聯繫起來。由於對於一般的 sentiment，如 good 或 bad，並不是 aspect 強相關的，使用均勻分佈來調整它們在不相關維度上所有 aspect 的分佈。

其次本文采用了 self-train 的思想，利用模型對未標記的高置信樣本預測來完善模型。通過平方運算增強高置信度預測，根據當前模型的預測計算每個未標記文檔的目標分數。當目標分數更新後沒有更多的樣本更改標籤分配時（收斂），self-train 過程終止。

《Context-aware Embedding for Targeted Aspect-based Sentiment Analysis》

現有的方法在表示**_目標（target）和方面（aspect）時往往會脫離上下文_**。這種隨機初始化或不依賴於上下文的表示方法有三個弊端：1）同一個目標或方面的向量表示在表達不同情感極性的句子中沒有得到區分；2）目標不是確定實體時（例如 “這個酒店”，“這個餐館”，“那部電影” 等），輸入信息無法體現實體本身的價值；3）忽略了目標和方面之間的相互聯繫。
目標和方面在上下文中存在**_重疊的關聯映射關係_**。在一句話中，一個目標可能會對應多個方面，而不同的方面可能會包含不同的情感極性。另一方面，在同一句話中往往會存在多個目標，所以目標和方面之間會存在錯綜複雜的對應關係。如圖：

爲解決上述問題，本文提出了一種結合上下文信息優化 sentiment 和 aspect 向量表示方法，該方法可以直接和現有基於神經網絡的目標 - 方面級別情感分析模型相結合，如圖所示：

（1）稀疏係數向量：

本文使用一個稀疏係數向量來提取文本中與 sentiment 相關度較高的詞語，並使用這些詞語作爲 sentiment 的上下文信息。通過對 sentiment 上下文詞向量的聚合獲得最終表示。通過這種方法，sentiment 向量可以從上下文中自動學習，所以就算句子中的目標不是確定的實體，也能得到有價值的向量表示。得到每個詞在句子中的權重表示，用階躍函數將權重表示稀疏化，由此得到的就是稀疏係數矩陣，用輸入 X 與稀疏係數矩陣相乘即可得到根據上下文構建的 sentiment 向量。

目標函數爲最小化上下文相關 sentiment 向量與輸入的 sentiment 向量距離：

（2）微調 aspect 向量：

對於 aspect 向量，由於詞本身就包含一定的語義信息，比如 “價格” 這個方面，而上下文信息與這個方面關聯度比較高的詞也會起很大作用，所以在對於方面信息的微調，是在初始的 aspect 向量上，利用上下文語義信息進行調整：

目標函數同理：

通過兩個目標函數，使優化後的 aspect 向量儘可能靠近與它相關聯的目標，遠離與它無關的目標，從而使輸入句子針對不同方面的情感信息得到有效區分。從圖中結果可以看出，本文提出的方法能使不同方面在訓練過程中得到更好的區分，有效提升了 aspect 向量表示的質量。

從實驗結果可以看出，對於 "噁心"" 頭疼 " 這種情感傾向極其依賴上下文，並且上下文語義結構複雜的情況，模型能很好地區分不同語境下同一 aspect 的情感，也能判斷出此時的 aspect 是否是情感詞。

《SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge》

相較於上述方法，本文用到了 transformer，讓模型獲得更多上下文語義信息，除此之外，還有兩處亮點：

（1）從 SentiWordNet 獲取每個詞及其詞性標籤的情感極性，作爲 "Linguistic Knowledge"。

（2）將預訓練模型分 2 個階段：Early Fusion 早期融合和 Late Supervision 後期監督。

主要區別是早期融合階段是把句子情感也作爲輸入，後期監督是把句子情感作爲預測標籤，監督訓練句子情感。早期融合和後期監督的目的是讓模型能夠理解句子級情感和單詞級情感和詞性之間的內在聯繫。1) 獲取每個單詞的詞性 tag 和情感傾向；2) 通過標籤感知的 mask 語言模型進行預訓練，與現有的 BERT-style 預訓練模型相比，模型通過其語言知識 (包括詞性 tag 和情感傾向) 豐富了輸入序列，並利用標籤感知的 masked 語言模型來捕獲 sentence-level 語言表示與 word-level 語言知識之間的關係。

提出了一種上下文感知注意力機制，該機制同時考慮了詞義等級，以及上下文光連貫性來確定每種詞義的注意力權重

Early Fusion

早期融合的目的在於恢復以語句級 label 爲條件的 mask 序列，模型分別預測 masking 位置處的單詞，詞性 tag 和 word-level 傾向。此子任務明確地對單詞和單詞的語言知識施加了全局情感 label 的影響，從而增強了複雜語義關係的能力。

Late Supervision

基於 [CLS] 和 masked 位置的隱藏狀態來預測 sentence-level 的 label 和單詞信息。此子任務使我們的模型能夠捕獲 [CLS] 處的句子級表示形式與 Masked 位置處的單 word-level 語言知識之間的隱式關係。

由於模型用到了 pos embedding，因此在 aspect 的識別上效果明顯，另外，可以通過相鄰的情感詞來檢測 aspect 術語。另外上下文感知情感注意力機制。對不同上下文中單詞的情感進行建模，從而帶來更好的知識增強的語言表示。

多情感詞的句子可能包含更復雜的情感表達，爲了進一步證明標籤感知的 masked 語言模型的重要性，論文比較了三種模型：不使用語言知識的 RoBERTa，通過語言知識簡單地增加輸入嵌入的 SentiLARE-EF-LS 和通過預訓練任務深度集成語言知識的 SentiLARE。結果表明預訓練任務可以幫助將 word-level 語言知識所反映的局部情感信息集成到全局語言表示中，並有助於理解複雜的情感表達。

三. 標籤中的噪音

《Learning with Noisy Labels for Sentence-level Sentiment Classification》

前言處我們提到句子級別的情感分析面臨的一個問題，即存在多種情感時，標註過程會存在噪音。除了標註過程外，前面提到的 Self-train 最大的問題也在於僞標籤帶來的噪音。針對標籤中的大量噪音，本文提出了 NETAB 模型。

NETAB 由兩個卷積神經網絡（cnn）組成，一個用於學習情緒得分以預測 clean 標籤，另一個用於學習噪聲轉換矩陣以處理輸入噪聲標籤。AB 網絡共享 A 網絡的所有參數，除了門單元的參數和 clean loss。

假設：訓練數據中的噪音不超過 50%

（1）DNN 首先記憶簡單的實例，並隨着訓練時間的增加逐漸適應硬實例；

（2）噪聲標籤理論上是通過噪聲轉移矩陣從乾淨 / 真實標籤中 transition。在訓練中，先對 A 網絡進行早期預訓練，然後交替訓練 AB 網絡和 A 網絡，使其具有各自的 loss func。

在訓練過程中，對 A 網絡進行了 early epoch 的預訓練，然後利用各自的交叉熵損失對兩個網絡進行 AB 網絡和 A 網絡交替訓練。即給出一批句子，我們首先訓練 AB 網絡，然後利用 A 網絡預測出的分數，從這一批中選出一些可能幹淨的句子，並對所選句子進行訓練。具體地說，使用 argmax 計算標籤，然後選擇其結果等於輸入標籤的句子。在圖中，選擇過程由一個門單元標記。測試一個句子時，使用 A 網絡來產生最終的分類結果。NETAB 的表現非常出色，尤其在 movie 數據集上：

四. 領域情感詞典構建

第二篇論文裏提到，利用主題模型增強不同 aspect 的情感特徵，當但主題模型的缺點也很明顯：

（1）高頻且沒有任何情感含義的形容詞非常容易被選中

（2）分詞：由於一些情感詞更像是短語，如 "多用用腦子"，"漲姿勢"，"不早點推 (薦)"，所以主題模型的重要一環是發現新情感詞。

那麼下面我們會介紹一些領域情感詞典構建的相關研究。

《Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision》

爲了充分利用文本中的 sentiment label，業界提出了一系列有監督學習方法來學習情感詞。其中在神經網絡結構中加入 Sentiment Supervision，訓練 sentiment-aware word embedding，成爲主流。但文檔級情感分析中存在的否定、過渡、比較度等複雜的語言現象以及 word representation sum up，使得很多詞語的真實情感會隨着文檔標籤變化，導致模型表現不佳。因此，論文除了在文檔層次訓練 sentiment-aware word embedding，同時也引入了詞層次上的情感感知的詞嵌入，以提高詞嵌入和情感詞典的質量。

(1) 詞級情感學習與標註

論文提出了多種詞級情感標註，如 1）預定義的情感詞典；2）帶有硬情感標註的 PMI-SO 詞典；3）帶有軟情感標註的 PMI-SO 詞典。

(2) 情感感知詞嵌入學習

對於文檔 d 中的每個單詞，將其映射爲一個連續表示形式 e，cost function 爲平均交叉熵，度量預測的情感分佈和在詞水平上的情感註釋之間的差異。

爲了在詞和文檔兩個層次上學習情感感知的詞表示，採用加權組合的方法來集成兩個層次的代價函數。

(3) 情感詞典構建

利用人工標註的 125 個正種子詞和 109 個負種子詞的嵌入作爲訓練數據。最後，利用 variant-KNN classifier 對種子詞進行擴展。

《Automatic construction of domain-specific sentiment lexicon based on constrained label propagation》

除了文檔級情感分析中存在的否定、過渡、比較度等複雜語言現象外，特定領域的情感詞極性也有很大區別，如：

電影，金融和食品所有的推文都在每條推文中使用 “long” 一詞。然而，“long”有完全不同的含義。在電影裏 “long” 代表電影長度，意味着這部電影很無聊；在金融領域，投資者總是用 “long” 字來形容代表買入倉位。在食品領域，“long”字只是用來形容某物的形狀是長的。

本文提出了一種基於約束標籤傳播的領域情感詞典自動構建策略。利用句法和先驗泛型詞典提取候選情感詞，通過 WordNet、句法規則和 SOC-PMI 三種不同的策略確定了整個未標註語料庫中兩個詞的語義相似度。把詞看作節點，相似性作爲加權邊來構造構詞圖。基於圖的半監督標籤傳播方法，將提取到的情感詞之間成對的上下文約束，作爲先驗知識用於標籤傳播過程中。應用約束傳播將局部約束的效果傳播到整個候選情感詞集合中，最後傳播的約束被合併到標籤傳播中，將極性分配給未標記詞。

詞圖可以通過不同的方式從語料庫、WordNet、web 文檔等多種資源中構建，構建詞圖的核心思想是確定每個詞之間的相似性，作爲詞圖的加權邊。論文結合了 WordNet、句法規則和 SOC-PMI 三種不同的策略，通過聚合多個資源的發現情感詞之間的互補關係。

其中 SOC-PMI（情感傾向點互信息算法）基於語料庫計算兩個目標詞的情感傾向相似度。利用點互信息（PMI）對兩個目標詞的重要鄰居詞進行排序，並將其 PMI 值聚合。這樣儘管兩個目標詞從未同時出現，SOC-PMI 仍然可以通過它們共同的鄰居來計算情感傾向相似度。

構建了詞圖之後，基於圖的半監督傳播方法在 similarity matrix 上，將極性從種子詞傳播到未標記詞。

第一次迭代，只有與種子詞連接的節點才能獲得標籤值。與種子詞越相似，得到的標籤值就越多。第二步，將標記數據的類矩陣固定到初始狀態。從標記數據到未標記數據的迭代收斂，未標記數據在迭代過程中逐漸獲得標記值。

除了基於單純詞共現或者 hownet，利用 Topic Model 發現相似情感詞之間的語義關係也是一種途徑。尤其在 aspect sentiment 這類語料中，同一類 aspect 的情感詞分佈相似，能夠抓住 aspect 或者 category 的情感詞分佈，會使得情感詞領域性更強，且能得到不同主題下的情感詞的極性。

STCS 的做法與上述方法有相似之處，在相似度特徵方面，將基於共現的 SOC-PMI 換爲情感關係圖增加路徑相似度，使得情感詞的上下文特徵更全面。而最終情感詞的極性通過在情感關係圖上對情感詞進行譜聚類，得到主題特定的情感詞彙。

TaSL 則是直接利用 LDA 模型，獲取主題信息，亮點在於，文檔由多對主題和情感表示，每對主題和情感的是單詞多項式分佈。由於 LDA 模型一定會考慮到 "主題和情感對" 與詞的分佈，"主題和情感對" 與文檔的分佈，因此也算繼承了 HSSWE 的思想，使得 TaSL 可以充分捕捉不同主題中每個單詞的情感極性，並能處理複雜的語言現象。

通過實驗結果可以看出，基於主題和情感關係圖構建情感詞典用於下游情感分類任務，比 Representation Learning（HSSWE）的表現更好。

總結

不難看出，不論是文檔句子級別的情感分析，還是 aspect 級別情感分析，上述研究的重點都在於，如何發現真正的情感上下文以及 aspect 與情感詞之間的語義關係，這一點在領域數據的情感分析任務上更加明顯。
基於 LDA 的方法雖然能夠發現 aspect-sentiment 之間的複雜關係，但這建立在一個好的分詞或者實體識別模型基礎上。
後續筆者還會繼續關注一些其他策略的情感分析模型，如遷移學習，mixup train，半監督等。

參考文獻：

[1]《Contextual Sentiment Neural Network for Document Sentiment Analysis》

[2]《Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding》

[3]《Context-aware Embedding for Targeted Aspect-based Sentiment Analysis》

[4]《SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge》

[5]《Learning with Noisy Labels for Sentence-level Sentiment Classification》

[6]《Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision》

[7]《Automatic construction of domain-specific sentiment lexicon based on constrained label propagation》

[8]《STCS Lexicon: Spectral-Clustering-Based Topic-Specific Chinese Sentiment Lexicon Construction for Social Networks》

[9]《Sentiment Lexicon Construction with Hierarchical Supervision Topic Model》

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/-0CJoYNVwzDtpgLFUE7Tkg

前言