Multi-Agent 如何設計

研究背景和目的

研究方法

主要發現

研究貢獻

1 Introduction

2 Related Work

研究背景與早期探索:自最早的聊天機器人出現,人類就期望文本生成模型能像人類一樣交流。最初,ELIZA 和 PARRY 這兩個程序模擬了醫患對話,開啓了此類探索。隨着大語言模型能力提升,多智能體系統研究日益增多。

研究空白與目標:儘管多智能體系統研究衆多,但關於其侷限性和內在特性的研究較少。Wang 等人質疑多智能體系統熱潮,指出單智能體大語言模型通過有效提示可達到類似性能;Yin 等人雖關注系統最佳表現場景,但僅對單模型和多智能體系統計算成本有一定見解。本文作者旨在研究多智能體討論在對話任務解決中的內在特性和侷限性,填補這一研究空白。

3 Taxonomy

3.1 Agents

智能體與參與者 participant:智能體是經過特定提示的大語言模型實例,它們圍繞特定任務展開討論。而參與到這種討論中的智能體,被作者稱作參與者。這表明在多智能體大語言模型的討論場景裏,每個智能體扮演着參與者的角色,共同協作完成任務探討。

參與者的角色塑造:參與者會按照特定的風格或格式進行交流互動,這種設定往往會塑造出不同的角色形象。比如設定爲領域專家,這樣就能更高效地調用訓練數據裏的專業知識,有助於解決專業性較強的問題;或者設定爲具有某種性格特徵的角色,爲討論增添活力與變化,使討論過程更加豐富多樣。

協調者 moderator 的角色及功能:部分研究在討論中引入了一個更爲核心的角色——協調者。它具有多種不同的能力,比如能夠提出解決任務的方案,爲討論指引方向;可以控制發言順序,確保討論有序進行,避免混亂;還能監督智能體,保證它們在討論時始終符合預先設定的角色形象,不偏離角色設定。協調者在討論中起到了關鍵的中心化作用,對討論的順利推進和有效進行有着重要影響。

協調者概述:在一些多智能體討論的研究裏,會設置一個核心智能體作爲協調者。雖然不同研究賦予它的目的各異,但通常它會通過特定設計保持中立,避免給討論帶來主觀偏向。

參與者定義:參與者是多智能體討論中的智能體,他們通過給出反饋、優化現有解決方案,爲討論出力。每個參與者都帶有獨特的偏好與信念,並以此爲基礎參與討論過程。

3.2 Discussion

互動準則:在多智能體系統裏,智能體之間的互動並非隨意進行,而是要遵循特定的準則。這些準則就像是一套規則,明確了在討論過程中,依次該由哪個智能體發表見解、爲討論貢獻內容,同時也界定了每個智能體能夠獲取和使用哪些信息。這確保了智能體之間的交流有序且有針對性。

獨特對話策略與討論範式:作者在評估衆多相關研究後發現,幾乎每項研究都根據自身特定的應用場景,制定了獨一無二的對話策略。這些策略從整體上可以被概括爲討論範式,它決定了智能體互動的模式和流程。不同的應用場景可能需要不同的討論範式,例如在解決複雜推理問題和簡單信息交流場景中,智能體互動遵循的討論範式會有差異。

提示的重要性:在智能體的互動過程中,提示扮演着關鍵角色。提示可以引導智能體按照特定的方向思考和迴應,影響它們對信息的理解和處理方式,進而影響智能體之間的互動效果。它與討論範式相互配合,共同塑造了智能體之間的交流方式和最終的討論結果。

討論結構與範式:爲了清楚地瞭解智能體是如何進行交流的,首先要明確討論的結構。這個過程涉及到對系統架構的修改和對討論的順序處理,作者在這裏引用了尹等人 [71] 的概念,將這種總體概念稱爲範式。並且存在四種典型的範式,即記憶範式、接力範式、彙報範式和辯論範式,它們在輪流順序和信息可見性方面具有各自的特點。

多智能體系統中的大語言模型使用:許多多智能體系統在進行討論時,會把經過指令微調的大語言模型作爲其中的智能體 [54, 71]。當這些大語言模型進入推理模式後,會收到一系列的提示信息,包括一般的討論安排、任務指令、之前的討論記錄以及像所分配角色這樣的額外信息。不同的研究在使用這些大語言模型時,所採用的提示技術是不一樣的,而且這些技術是根據系統的具體應用場景來選擇的。

上下文長度對討論的影響:在引導大語言模型參與討論的過程中,每次提示都包含了初步討論的信息。杜等人 [9] 的研究指出,較長的提示會對討論結果產生影響。具體來說,較長的提示會使系統收斂到正確答案的速度變慢,這意味着可能需要更多的時間和計算資源。但從結果來看,最終達成的共識質量更高,這說明較長的提示在一定程度上可以提升最終結果的性能。這種現象體現了一種權衡關係,即需要在模型性能和效率之間做出選擇,並且這種權衡關係在討論的場景中也可能出現。

角色分配器的發展:在早期的多智能體系統中,當使用大語言模型時,要麼不使用角色,要麼只使用單一角色 [74]。然而,不同的任務對於角色是有不同需求的,有些任務需要專門的角色來完成,並且使用專門角色可以爲任務帶來好處。但手動爲不同任務定義專門角色是一項繁重的工作。不過,王等人 [63] 的研究表明,大語言模型具有自行找到合適角色的能力,所以可以通過有效地向大語言模型發出提示,讓它爲特定任務和實例生成合適的角色列表,這可能會提高多智能體系統在不同任務中的適應性和性能。

3.3 Decision Making

決策機制的現狀:在對許多研究進行評估後發現,其中有相當一部分研究並未提供決策機制,它們只是簡單地在一個固定的時間點或者階段終止智能體之間的討論,例如 [32, 47] 所涉及的研究。

決策機制的分類:然而,也有一些研究採用了不同的決策機制,作者將這些機制歸納爲三大類:

投票機制概述:在多智能體討論中,對於生成性任務,智能體可以提出自己的草案作爲解決方案。而對於其他一些本身就帶有一組可選項(如多項選擇題)的任務,可使用投票機制進行決策。在這種機制下,智能體可以對自己喜歡的解決方案進行投票,從而輔助決策。

共識機制(Consensus):在解決生成性任務時,共識機制強調通過多個智能體協作創建草案的方式。其核心思想是將多個智能體的想法結合起來,不斷對當前的草案進行優化和完善,以形成一個高質量的解決方案。它和投票機制的區別在於,投票機制是從已有的一組草案中挑選出最佳的,而共識機制則是持續對草案進行改進,直至達到各方都能接受的狀態,滿足達成共識的條件,這種方式注重的是對草案的逐步優化和完善過程,而不是簡單的方案選擇。

樹搜索(Tree Search):在多智能體的討論場景中,智能體會爲解決某個問題提出許多不同的解決方案。將這些解決方案看作一個整體時,可將其表示爲一棵決策樹。爲了找出最優的解決方案,需要對這棵決策樹進行遍歷,並且存在多種遍歷的方法。然而,陳等人 [7] 指出,在多智能體大語言模型中使用樹搜索方法會存在效率問題。當搜索的探索率較高時,生成最終解決方案的速度會大幅下降,這一問題會嚴重影響其在實際應用中的效果。所以,如何對決策樹進行搜索的方法對於系統的效率和性能有着決定性的影響,選擇合適的搜索方法是關鍵。

4 Methodology

研究背景和目的:首先,作者說明了開展研究的基礎,即需要一個進行多智能體討論的環境來回答研究問題和開展實驗,爲此提出了一個新的框架,該框架可以利用多智能體大語言模型進行實驗操作。這個框架會涉及到多方面的細節,包括智能體的設置、討論範式和決策制定,以及實驗所使用的數據集和指標等,旨在爲整個研究提供一個完整的實驗平臺。

4.1 MALLM Framework

MALLM 框架的總體介紹:其核心功能是爲多智能體大語言模型的研究提供服務。

MALLM 的主要組件及工作原理

討論的基本流程

MALLM 與其他框架的比較

實驗設置

自動角色分配

討論範式

共識決策

4.2 Datasets

任務和數據集的選擇細節

數據集子集的選取機制

實驗的重複和結果評估策略

4.3 Metrics

評估指標的總體使用原則

最終輸出的處理和解決方案提取

具體任務的評估指標細節

5 Experiments

實驗一:

實驗二:

實驗三:

5.1 Task Performance

實驗目的與研究問題

實驗設置與方法

實驗結果

主要結論

5.2 Discussion Convergenc

實驗目的和研究問題

實驗設置與方法

實驗結果

主要結論

5.3 Impact of Agents

實驗概述

旨在研究多智能體討論中個體智能體的影響,考慮智能體的角色(personas)和在討論範式中的位置。關注角色對討論結果的量化影響、智能體響應長度與角色和結構的關係、多智能體與單 LLM 的詞彙多樣性差異,以及這些因素對任務性能的影響。

實驗設計

實驗將原有的三個專家角色中的一個替換爲中性草案提議者智能體進行對比,不改變其他參數。通過關注最核心智能體,查看前十個最常生成的角色在不同範式中的表現,研究響應長度和決策壟斷問題,還通過散點圖研究總標記數、平均消息標記數與任務性能的關係。

實驗結果

主要結論

專家角色設定利於複雜任務,可提升詞彙多樣性,核心智能體在生成任務中貢獻較長信息,在摘要任務中較長響應可能引發討論壟斷風險。

6 Epilogue

主要研究內容及成果

未來工作方向

研究侷限

論文:Multi-Agent Large Language Models for Conversational Task-Solving

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/eFHbrYt6ofeG0bjtNsyaHQ