Multi-Agent 如何設計

研究背景和目的

在單一大語言模型長期主導人工智能領域的背景下，多智能體系統在對話任務解決中逐漸嶄露頭角。
雖然先前的研究已經展示了多智能體系統在推理任務和創造性工作中的潛力，但對於其在對話範式方面的侷限性以及單個智能體的影響，尚缺乏深入分析。
本研究旨在填補這一空白，系統地評估多智能體系統在各種討論範式下的表現，評估它們在生成性任務和問答任務中的優缺點。

研究方法

實驗評估：對多智能體系統在不同討論範式下進行系統評估，包括生成性任務（如摘要、翻譯、釋義類生成）和問答任務（如抽取式、策略性、倫理問答）。
文獻綜述：對 2022 年至 2024 年的 20 項多智能體研究進行分類整理，深入剖析現有研究的成果與不足。

主要發現

優勢方面：多智能體系統在複雜推理任務中表現出色，通過利用專家角色設定，其性能優於單一模型。
挑戰方面：發現了多智能體系統在對話任務解決中存在的三個主要挑戰：
問題漂移：較長的討論雖然有助於推理，但智能體無法始終嚴格遵循任務要求，導致問題漂移，使得簡短的對話在基礎任務中更爲有效。
一致性崩塌：長時間的討論存在一致性崩塌的風險，給系統帶來新的安全隱患。
壟斷現象：討論形式和角色設定會影響單個智能體的迴應長度，出現討論壟斷現象，給諸如摘要生成等任務帶來了決策公平性問題。

研究貢獻

理論貢獻：提出了一個對 2022 年至 2024 年 20 項多智能體研究的分類法，爲該領域的研究提供了系統性的梳理和總結。
實踐貢獻：引入了一個在對話任務解決中部署多智能體大語言模型的框架，爲後續研究和實際應用提供了可參考的架構。
啓示意義：揭示了多智能體交互和不同對話範式所帶來的潛力與挑戰，爲未來研究如何提高多智能體大語言模型的效率、性能和安全性提供了有價值的見解。

1 Introduction

研究背景
單一大語言模型的現狀與侷限：單一大語言模型在衆多任務中表現出色且應用廣泛，但存在諸如偏差、過度自信、可解釋性差以及難以處理複雜任務推理等問題。
多智能體大語言模型的興起：受人類通過協作解決複雜問題的啓發，研究人員借鑑社會選擇理論，利用多個大語言模型（即智能體）模擬人類互動，期望解決單一大語言模型的侷限。多智能體系統在推理任務等方面已展現優勢，但對其內在機制和影響因素的理解尚不足。
研究方法
提出 MALLM 框架：作者構建 MALLM 框架，用於模擬人類互動以解決對話式問題。
確定研究問題與任務：圍繞多智能體討論的有效性、影響任務性能的因素以及討論特點等方面提出具體研究問題，並以生成性任務（摘要、翻譯、釋義生成）和問答任務（多選倫理問答、多選策略問答、抽取式問答）作爲研究基準。
研究發現
任務表現差異：多智能體系統在推理能力和道德一致性方面有提升，但在基礎生成任務（如翻譯）上遜於單一大語言模型搭配思維鏈提示法。
討論收斂與問題適應：多數智能體討論時能快速達成共識，且會針對更難示例延長討論，以適應問題複雜度。
討論長度的影響：除策略性問答任務外，過長討論對其他任務性能有負面影響，易引發 “問題漂移” 現象，即討論偏離任務要求，因此簡短討論在多數任務中更有效。
信息與角色設定的作用：信息限制會使討論收斂變慢；專家角色設定對複雜任務（如倫理問答、策略問答）解決至關重要；在生成性任務中，處於核心地位且信息全面的智能體生成內容更多，長迴應智能體可能壟斷討論，影響決策公平性。長時間討論還可能導致 “一致性崩塌”，引發安全擔憂。
研究貢獻
框架貢獻：提出模塊化框架，可靈活控制智能體、討論形式和決策過程，爲深入研究多智能體大語言模型提供有力工具。
性能見解：明確指出多智能體系統在不同場景下相較於單一大語言模型的優劣，爲模型應用提供參考。
過程影響分析：深入研究多智能體討論過程，闡釋討論形式對其的影響，增進對多智能體交互機制的理解。
個體影響量化：綜合考慮角色設定和迴應長度，量化單個智能體對對話的影響，爲優化多智能體系統提供依據。

研究背景與早期探索：自最早的聊天機器人出現，人類就期望文本生成模型能像人類一樣交流。最初，ELIZA 和 PARRY 這兩個程序模擬了醫患對話，開啓了此類探索。隨着大語言模型能力提升，多智能體系統研究日益增多。

多智能體系統相關研究
單一大語言模型的類智能體模擬：一些研究通過特定提示方法，讓單一大語言模型模擬不同領域專家角色進行討論，如 Wang 等人的研究。這種方式在同一輸出中運用討論概念，僅需單一大語言模型計算，且能提升模型在創意寫作等任務中的表現。
自我修正機制：像 “自一致性” 這類自我修正機制認爲，複雜問題通常有多種解決途徑。對查詢多次處理，因模型參數變化會產生不同輸出，彙總選擇最一致的答案可得到更準確迴應。Schick 等人研究表明，重複處理和迭代改進對創意寫作有益。
多智能體協作：“思維交換” 結合智能體提示和重複改進思路，提出多個智能體（大語言模型的不同提示實例）協作解決任務的場景。研究顯示，多智能體方法在推理方面優於單個模型搭配思維鏈或自一致性的方法。此外，不同智能體（如後端模型不同）可增加回應多樣性，使討論更豐富。

研究空白與目標：儘管多智能體系統研究衆多，但關於其侷限性和內在特性的研究較少。Wang 等人質疑多智能體系統熱潮，指出單智能體大語言模型通過有效提示可達到類似性能；Yin 等人雖關注系統最佳表現場景，但僅對單模型和多智能體系統計算成本有一定見解。本文作者旨在研究多智能體討論在對話任務解決中的內在特性和侷限性，填補這一研究空白。

3 Taxonomy

多智能體大語言模型研究領域現狀：該領域雖活躍但尚處初期。Rossi 等人在 2018 年對多智能體算法進行系統回顧，將多智能體系統任務分爲三類：空間組織行爲任務，智能體主要構建空間佈局，與環境交互少；集體探索環境任務，智能體間交互有限；合作決策任務，智能體與環境及彼此都有交互。然而，新的研究成果超出了這三類範疇。
對話式問題解決分類的提出：Guo 等人將問題解決視爲以大語言模型爲智能體的研究分支。基於此，作者建議新增 “對話式問題解決” 作爲第四類任務。在這類任務中，智能體主要依靠相互間的交互來解決問題，與環境交互較少。作者的研究便專注於通過大語言模型智能體來開展對話式問題解決。
文獻綜述的必要性與實施：儘管對話式問題解決領域研究熱度上升，但缺乏針對多智能體系統的最佳實踐總結。因此，全面的文獻綜述對於開展多智能體大語言模型的深入研究至關重要。作者梳理了 2022 年以來 20 篇相關文獻，明確了多智能體大語言模型的三個核心構成要素：智能體、討論和決策。在研究過程中，作者着重關注符合這三個要素的研究成果，並對每個要素所涉及的常用技術和前沿研究進行了詳細闡述，爲後續研究奠定基礎。

3.1 Agents

智能體與參與者 participant：智能體是經過特定提示的大語言模型實例，它們圍繞特定任務展開討論。而參與到這種討論中的智能體，被作者稱作參與者。這表明在多智能體大語言模型的討論場景裏，每個智能體扮演着參與者的角色，共同協作完成任務探討。

參與者的角色塑造：參與者會按照特定的風格或格式進行交流互動，這種設定往往會塑造出不同的角色形象。比如設定爲領域專家，這樣就能更高效地調用訓練數據裏的專業知識，有助於解決專業性較強的問題；或者設定爲具有某種性格特徵的角色，爲討論增添活力與變化，使討論過程更加豐富多樣。

協調者 moderator 的角色及功能：部分研究在討論中引入了一個更爲核心的角色——協調者。它具有多種不同的能力，比如能夠提出解決任務的方案，爲討論指引方向；可以控制發言順序，確保討論有序進行，避免混亂；還能監督智能體，保證它們在討論時始終符合預先設定的角色形象，不偏離角色設定。協調者在討論中起到了關鍵的中心化作用，對討論的順利推進和有效進行有着重要影響。

協調者 moderator

協調者概述：在一些多智能體討論的研究裏，會設置一個核心智能體作爲協調者。雖然不同研究賦予它的目的各異，但通常它會通過特定設計保持中立，避免給討論帶來主觀偏向。

草案提議者：在某些決策機制下，需要反覆擬定方案。草案提議者這一角色便發揮作用，它在綜合其他智能體反饋後，提出新的解決方案。此角色在對話中保持客觀，不干擾決策，主要職責是將各方已提出的觀點整合爲一個儘量滿足多數智能體的草案。
發言順序管理者：智能體在討論中的發言順序並非固定不變。借鑑人類互動場景，如脫口秀或商務會議，發言順序管理者這一協調者角色會掌控話語權，決定針對特定問題諮詢哪個專業智能體，必要時還會引入其他專家智能體協助解決問題。這種方式使討論更靈活，不侷限於常規的輪流發言模式。
策略反饋者：討論時，智能體可能出現難以達成共識或偏離預設準則的情況。策略反饋者這一角色能通過策略反饋機制，促使智能體展現特定行爲。比如，有研究利用監督智能體保證討論中的智能體不偏離設定角色，還有研究通過觀察智能體在談判博弈中給各智能體提供改進策略的書面反饋。
任務細化者：用戶輸入的任務對於多智能體系統可能過於複雜、難以理解，尤其在軟件開發等場景。任務細化者會在智能體討論前，增加一道工序，對用戶給定任務進行進一步明確和細化，甚至給出如開發應用程序這類複雜任務的解決計劃。
狀態分類器：多智能體討論中，判斷何時結束交流是個難題。狀態分類器可用於判定討論處於進行、完成，還是無法達成一致的狀態。雖然該分類器起初應用於簡單談判博弈，但此概念有望拓展到其他任務，在可能無法達成共識的討論中節約計算資源。

參與者 participant

參與者定義：參與者是多智能體討論中的智能體，他們通過給出反饋、優化現有解決方案，爲討論出力。每個參與者都帶有獨特的偏好與信念，並以此爲基礎參與討論過程。

大語言模型（LLM）：LLM 是每個參與者的核心。它負責生成思考流程以及對討論的貢獻內容，比如向其他智能體提供建設性反饋、完善當前方案草稿，還能依據提示想出新點子。研究發現，像 GPT - 4 這樣推理能力強的模型，在需要緊密協作的任務裏，能更好地貢獻於討論，助力獲得更高分數。
角色設定（Persona）：參與討論的智能體可被賦予特定屬性，如一種性格、專家角色等，這些屬性就是智能體的 Persona。Persona 能爲討論帶來獨特觀點和鮮明反饋，豐富討論內容。在解謎、創意故事寫作和數學推理等對推理與知識要求高的任務中，Persona 有助於提升表現。而且，恰當選擇 Persona 還能減少結果偏差。
記憶（Memory）：爲模擬更貼近人類的交互，Park 等人引入 Memory 模塊，用來存儲各智能體的討論記錄。但依據討論形式或待解決任務的不同，各智能體獲取的討論記錄有差異，並非都能知曉全部信息。目前，在多智能體解決問題的情境下，智能體間信息差異產生的影響尚未深入研究，這方面動態變化有待進一步探索。
工具（Tools）：因問題複雜或具有模塊化特點，部分問題對 LLM 智能體而言頗具挑戰甚至無法解決。爲此，Zhuang 等人給智能體配備 Tools。理想狀態下，參與者能依具體情形從工具集合中挑選合適工具。不過，當前 LLM 智能體在準確評估情形上存在困難，而 ToolQA 數據集可用於微調 LLM 智能體，使其學會在合適場景選用恰當工具。

3.2 Discussion

互動準則：在多智能體系統裏，智能體之間的互動並非隨意進行，而是要遵循特定的準則。這些準則就像是一套規則，明確了在討論過程中，依次該由哪個智能體發表見解、爲討論貢獻內容，同時也界定了每個智能體能夠獲取和使用哪些信息。這確保了智能體之間的交流有序且有針對性。

獨特對話策略與討論範式：作者在評估衆多相關研究後發現，幾乎每項研究都根據自身特定的應用場景，制定了獨一無二的對話策略。這些策略從整體上可以被概括爲討論範式，它決定了智能體互動的模式和流程。不同的應用場景可能需要不同的討論範式，例如在解決複雜推理問題和簡單信息交流場景中，智能體互動遵循的討論範式會有差異。

提示的重要性：在智能體的互動過程中，提示扮演着關鍵角色。提示可以引導智能體按照特定的方向思考和迴應，影響它們對信息的理解和處理方式，進而影響智能體之間的互動效果。它與討論範式相互配合，共同塑造了智能體之間的交流方式和最終的討論結果。

範式 Paradigm

討論結構與範式：爲了清楚地瞭解智能體是如何進行交流的，首先要明確討論的結構。這個過程涉及到對系統架構的修改和對討論的順序處理，作者在這裏引用了尹等人 [71] 的概念，將這種總體概念稱爲範式。並且存在四種典型的範式，即記憶範式、接力範式、彙報範式和辯論範式，它們在輪流順序和信息可見性方面具有各自的特點。

輪流順序：輪流順序是每個範式的重要特徵之一。在某些情況下，討論可以以比較簡單的方式進行，智能體按順序依次貢獻自己的信息，形成一種有序的信息流動。然而，還有一些更復雜的範式會打亂這種順序，這樣會影響信息在智能體之間流動的速度，進而影響整個討論的節奏和信息傳遞的效率。
可見性：不同的範式可以控制智能體之間信息的可見性，也就是對智能體可訪問信息的權限進行調整。例如，一種範式可能允許所有智能體看到彼此之間的全部信息，這意味着信息是完全透明的；而另一種範式可能會限制信息的可見性，只有正在直接交換信息的智能體才能看到彼此的消息，這可能會影響智能體的決策和討論的進程，因爲不同的信息可見性會導致智能體擁有不同的信息資源。
總結器：在進行多輪次的複雜討論時，輸入到智能體大語言模型的信息會變得非常長。但現代的大語言模型在處理長文本上下文信息時會面臨困難，不能很好地利用這些信息。爲了解決這個問題，杜等人 [9] 使用了一個總結模塊，將冗長的討論提煉爲關鍵要點。實驗結果顯示，對討論信息進行總結並作爲輸入，相比直接使用長文本上下文信息，可以提高系統的性能，有助於智能體更好地處理信息和完成任務。
智能體數量：參與討論的智能體數量對於討論的開展有着顯著影響。杜等人 [9] 的研究表明，增加討論中的智能體數量可以提高推理任務的性能，這可能是因爲更多的智能體帶來了更多的推理步驟，有助於從不同角度進行思考和分析問題。王等人 [63] 的研究也有類似發現，他們比較了生成固定數量角色和可變數量角色的情況，發現使用可變數量角色的方法效果更好，這意味着大語言模型自身有能力根據情況來決定一些討論的參數，例如智能體的數量，這體現了大語言模型在一定程度上的自主性和靈活性，也爲優化多智能體系統的性能提供了一種可能的思路。

Prompting

多智能體系統中的大語言模型使用：許多多智能體系統在進行討論時，會把經過指令微調的大語言模型作爲其中的智能體 [54, 71]。當這些大語言模型進入推理模式後，會收到一系列的提示信息，包括一般的討論安排、任務指令、之前的討論記錄以及像所分配角色這樣的額外信息。不同的研究在使用這些大語言模型時，所採用的提示技術是不一樣的，而且這些技術是根據系統的具體應用場景來選擇的。

上下文長度對討論的影響：在引導大語言模型參與討論的過程中，每次提示都包含了初步討論的信息。杜等人 [9] 的研究指出，較長的提示會對討論結果產生影響。具體來說，較長的提示會使系統收斂到正確答案的速度變慢，這意味着可能需要更多的時間和計算資源。但從結果來看，最終達成的共識質量更高，這說明較長的提示在一定程度上可以提升最終結果的性能。這種現象體現了一種權衡關係，即需要在模型性能和效率之間做出選擇，並且這種權衡關係在討論的場景中也可能出現。

角色分配器的發展：在早期的多智能體系統中，當使用大語言模型時，要麼不使用角色，要麼只使用單一角色 [74]。然而，不同的任務對於角色是有不同需求的，有些任務需要專門的角色來完成，並且使用專門角色可以爲任務帶來好處。但手動爲不同任務定義專門角色是一項繁重的工作。不過，王等人 [63] 的研究表明，大語言模型具有自行找到合適角色的能力，所以可以通過有效地向大語言模型發出提示，讓它爲特定任務和實例生成合適的角色列表，這可能會提高多智能體系統在不同任務中的適應性和性能。

3.3 Decision Making

決策機制的現狀：在對許多研究進行評估後發現，其中有相當一部分研究並未提供決策機制，它們只是簡單地在一個固定的時間點或者階段終止智能體之間的討論，例如 [32, 47] 所涉及的研究。

決策機制的分類：然而，也有一些研究採用了不同的決策機制，作者將這些機制歸納爲三大類：

投票機制：這種機制對於某些特定類型的任務具有較好的適用性，比如分類任務或者標記問題，其中多項選擇問答 [41] 就是一個典型例子。當智能體已經提出了可能的解決方案時，投票機制還可以用於處理生成性任務，即讓智能體對可能的方案進行投票，根據票數來決定最終的結果，從而在一定程度上解決問題。
共識機制：主要用於生成性任務，例如創意故事寫作 [47]。在這個過程中，會使用迭代反饋循環，所有智能體都會對當前最新的草案進行改進。通過多次循環修改，直到所有智能體都認可最新的草案，並且不再需要進一步修改時，就認爲達成了共識，達成共識也就意味着完成了決策過程，這一過程可以在 [63] 的研究中得到體現。
樹搜索機制：其作用在於可以對討論的多種可能路徑進行遍歷，通過這種遍歷，可以找到最優的解決方案 [75]。並且在將多智能體系統應用於多步驟任務時，樹搜索機制能夠幫助智能體系統更好地找到解決問題的最佳途徑，爲解決多步驟任務提供支持。
Voting

投票機制概述：在多智能體討論中，對於生成性任務，智能體可以提出自己的草案作爲解決方案。而對於其他一些本身就帶有一組可選項（如多項選擇題）的任務，可使用投票機制進行決策。在這種機制下，智能體可以對自己喜歡的解決方案進行投票，從而輔助決策。

排序式投票（Ranked）：
這是一種具體的投票方式，每個智能體需要將可能的解決方案按從優到劣的順序進行排列。這樣做的好處是可以對不同的偏好方案進行比較和權衡，找到一個折中的方案，該方案能夠在一定程度上滿足多個智能體的需求。之前的研究表明，這種排序式投票方式在評估人類集體行爲方面有不錯的表現，說明它在模擬人類集體決策時具有一定的優勢和準確性。
累積式投票（Cumulative）：
此投票方式給每個智能體固定數量的分數，智能體將這些分數分配給不同的解決方案。最終，得分最高的解決方案會成爲最終決策。對於使用大語言模型的情況，如果期望智能體之間能有較高的一致性，累積式投票是更優的選擇。因爲這種方式可以通過分數分配清晰地反映出每個智能體對不同方案的認同或不認同程度，進而產生更具一致性的結果，使得最終決策更具說服力和穩定性。
批准式投票（Approval）：
楊等人 [69] 對批准式投票進行了詳細說明。在這種方式下，每個智能體只能選擇固定數量的解決方案表示批准。這樣做的好處是在決策過程中，可使大語言模型在一定程度上避免過於堅持自己的觀點，讓決策過程在處理更開放的任務時更快地得出結果。而且，批准式投票還有一些變體，它們可以更加靈活，比如允許智能體少選甚至不選某些解決方案，這種更具動態性的批准機制在處理具有明確參考的任務時，可能會有更好的表現，更能適應不同的任務需求和場景。

共識機制 Consensus

共識機制（Consensus）：在解決生成性任務時，共識機制強調通過多個智能體協作創建草案的方式。其核心思想是將多個智能體的想法結合起來，不斷對當前的草案進行優化和完善，以形成一個高質量的解決方案。它和投票機制的區別在於，投票機制是從已有的一組草案中挑選出最佳的，而共識機制則是持續對草案進行改進，直至達到各方都能接受的狀態，滿足達成共識的條件，這種方式注重的是對草案的逐步優化和完善過程，而不是簡單的方案選擇。

一致性（Consistency）：當對一個或多個智能體就同一任務反覆進行提示時，會得到一組可能的解決方案。自我一致性 [61] 是一種處理這些方案的方式，它會對這些方案進行一致性檢查。具體來說，就是找出與其他所有方案最相似的那個方案，將其作爲最終答案。儘管自我一致性最初是爲單智能體大語言模型提出的，但後來發現它也可以在多智能體系統中發揮作用[59]，可以幫助從多個智能體提供的多個方案中篩選出最具一致性的最終方案，從而保證結果的穩定性和可靠性。
迭代共識（Iterative）：迭代共識採用一種漸進式的方法來解決問題。它不是像傳統方式那樣一次性生成多個解決方案，而是一個接一個地提出新的解決方案。在這個過程中，會通過持續的討論來不斷優化輸出結果，直到達到一定數量的智能體都滿意的程度。這種方法在多種場景下得到了應用，例如 “單人性能提示”[63] 的提示技術以及 PEER[46]這樣的協作模型中都利用了迭代共識的思想。此外，“思維交換”[71]和陳等人 [5] 的研究在多智能體討論中也使用了迭代共識，他們使用不同的模型，讓智能體在討論中相互說服，通過不斷迭代更新方案，最終實現達成共識的目標，體現了一種動態的、逐步優化的解決問題思路。
Tree Search

樹搜索（Tree Search）：在多智能體的討論場景中，智能體會爲解決某個問題提出許多不同的解決方案。將這些解決方案看作一個整體時，可將其表示爲一棵決策樹。爲了找出最優的解決方案，需要對這棵決策樹進行遍歷，並且存在多種遍歷的方法。然而，陳等人 [7] 指出，在多智能體大語言模型中使用樹搜索方法會存在效率問題。當搜索的探索率較高時，生成最終解決方案的速度會大幅下降，這一問題會嚴重影響其在實際應用中的效果。所以，如何對決策樹進行搜索的方法對於系統的效率和性能有着決定性的影響，選擇合適的搜索方法是關鍵。

評估器（Critic）：李等人 [31] 提出了一種 “循環評估器” 的方法，在每一輪討論中，智能體會生成一組可能的解決方案，然後由評估器從中挑選出最優的方案。這裏的評估器可以是經過提示的大語言模型，也可以是人類。胡等人 [22] 使用的樹規劃器是爲了解決多步驟任務，它會在執行任務前生成多個任務計劃，當在遍歷決策樹時遇到錯誤，會回到之前的分叉節點繼續遍歷。這兩種方法都與傳統的啓發式方法（如蒙特卡羅樹搜索[48]）不同，因爲它們的評估器選擇最優方案的標準是基於人爲的提示工程或人類偏好，這爲決策提供了一種更具主觀性和靈活性的方式。
啓發式方法（Heuristic）：在多智能體對話的決策樹探索中，還可以使用啓發式方法。這種方法的優勢在於不需要額外的模型來進行樹的遍歷，節省了資源。周等人 [75] 將蒙特卡羅樹搜索 [48] 應用到多智能體的環境中，通過開發率和探索率來控制整個問題的解決過程，其具體操作是依次執行選擇、擴展、評估、模擬、反向傳播和反思這六個步驟，直至任務完成或達到一定的限制條件。此外，還有像束搜索 [66] 和最佳優先樹搜索 [28] 等其他樹搜索算法也被用於多智能體的交互中。儘管這些算法在性能和速度方面有所差異，但它們都屬於對樹的啓發式探索，因爲它們的核心概念都是在不依賴額外模型的情況下，利用啓發式規則探索決策樹，爲尋找最優解提供了不同的思路和實現路徑。

4 Methodology

研究背景和目的：首先，作者說明了開展研究的基礎，即需要一個進行多智能體討論的環境來回答研究問題和開展實驗，爲此提出了一個新的框架，該框架可以利用多智能體大語言模型進行實驗操作。這個框架會涉及到多方面的細節，包括智能體的設置、討論範式和決策制定，以及實驗所使用的數據集和指標等，旨在爲整個研究提供一個完整的實驗平臺。

任務性能方面：
該研究主要聚焦於多智能體大語言模型的性能特點，包括其優勢、劣勢和獨特性質。爲了探究多智能體對話中尚未解決的問題，即討論形式對多智能體對話的影響，作者設計了一系列實驗。
這些實驗將在四種不同的通信範式下評估多智能體大語言模型，而這些範式在智能體的輪次順序和信息獲取權限上存在差異。通過將多智能體的這些範式與帶有思維鏈（CoT）的單個大語言模型對比，可以發現多智能體系統的優勢所在，同時找出哪些任務更適合用單個大語言模型解決。對不同範式差異的深入研究有助於更好地理解現有系統，並且爲開發新的通信範式提供理論依據，幫助人們更深入地認識多智能體系統的工作機制。
討論收斂性方面：
多智能體通信的內在特性還未被充分探索，當前許多研究都集中在使特定任務性能最大化上。作者爲了更深入地理解多智能體討論是如何展開的，決定對多智能體討論的收斂性進行評估。收斂性主要通過觀察智能體達成共識所需的輪次和交換消息的數量來體現。
此外，作者還想探究多智能體系統是否能夠通過基於共識的決策機制來動態地適應問題的複雜性。爲了實現這個目的，會觀察單個大語言模型得分低的樣本是否也是需要長時間討論的樣本，期望從中找出不同會話範式在收斂速度上的差異，並量化多智能體大語言模型的適應性。同時，一些任務可能會因爲不同範式的結構特點（如輪次順序和信息訪問權限）而受益，這些實驗可以爲成功運用多智能體大語言模型提供關鍵信息，幫助人們瞭解在不同情況下如何優化多智能體系統的性能。
智能體的影響方面：
作者對單個智能體在討論進程中的影響感興趣，通過將具有專家角色的智能體替換爲中立的草案提議者，並比較前後的性能，來測試其對決策過程的影響程度。在開放性任務（如創意寫作）中，需要吸引讀者的寫作風格，因此作者通過測量去除一個角色前後最終輸出的詞彙多樣性，來測試專家角色智能體是否有助於多智能體系統產生更吸引人的寫作成果，進而爲改進現有系統提供參考。
作者還關注單個智能體在範式中的位置如何影響討論進程，通過另一個大語言模型自動生成角色，並根據它們在範式中的位置評估其生成長度。作者預期不同任務中具有專家角色的單個智能體的影響會有所不同，並且在範式中的位置可能會導致生成消息長度的不平衡，這種不平衡在期望進行平衡對話時是一個需要考慮的重要因素。最終目的是通過量化智能體整體和個體的影響，清晰地展現它們對討論進程的影響方式，爲更好地控制和優化多智能體討論提供依據。

4.1 MALLM Framework

MALLM 框架的總體介紹：其核心功能是爲多智能體大語言模型的研究提供服務。

該框架具有諸多優點：
可定製和模塊化接口：這意味着用戶可以根據自己的需求，對框架進行靈活調整，方便研究多智能體大語言模型的各種特性和組件。
測試新想法的便利性：通過改變簡單的參數或自定義子類，就能對新的想法進行測試，爲創新研究提供了便利。
廣泛的任務支持：其設計的提示模板能夠爲多種任務提供支持，只要任務帶有相應的指令，就可以在該框架下開展。
性能優勢：具有抗錯性和高效性，這得益於並行化的 API 調用，同時還自帶集成的評估管道，有助於提高研究的準確性和效率。
開源和可擴展性：最初已經包含了本研究所需的核心組件，而且作爲開源項目，其他研究人員可以在 GitHub 存儲庫中對其進行貢獻和修改，作者也希望持續改進和擴展該框架的功能，爲更多研究人員服務。

MALLM 的主要組件及工作原理：

智能體部分：
MALLM 能夠創建智能體，這些智能體被賦予了角色，這些角色在討論中發揮着重要作用。
這些角色可以通過另一個大語言模型自動生成，爲解決問題的討論提供了基礎。
討論範式部分：
允許執行多種不同的討論範式，這是該框架的一個重要特點。
不同的討論範式在智能體之間的輪次順序和信息可見性方面存在差異，這使得討論具有多樣性和靈活性。
在實際的討論過程中，每個智能體都可以參與其中，它們會發送消息，並表明對當前解決方案的態度，這種參與方式有助於推動討論的進行。
決策協議部分：
包含一個決策協議，該協議會根據預先設定的規則（例如投票、共識等）來檢查智能體之間是否達成了一致。
其重要性在於，通過這種檢查，確保討論不會無休止地進行下去，能夠在合適的時機終止，併爲用戶提供最終的解決方案，保證了整個討論過程的完整性和有效性。

討論的基本流程：

詳細說明了使用 MALLM 進行討論的三個基本步驟：
步驟（1）：根據任務和示例自動確定合適的專家角色，以此來初始化智能體。這個步驟爲後續的討論做好準備工作，通過自動分配專家角色，爲智能體賦予不同的能力和視角，有助於開啓一個有針對性的討論。
步驟（2）：智能體開始討論如何解決示例問題。在這個過程中，使用思維鏈（CoT）對智能體進行提示，讓它們對當前的解決方案給出反饋、提出改進建議，並且表明是否同意該方案，這體現了智能體之間的協作和交流，通過思維鏈引導智能體更好地參與討論和貢獻自己的想法。
步驟（3）：每次收到智能體的消息後，檢查它們之間是否達成了共識，如果達成共識，意味着找到了最終的解決方案，此時就可以終止討論。這是一個不斷迭代的過程，通過持續的交流和檢查，推動討論走向最終的決策。

MALLM 與其他框架的比較：

作者提及了其他近期提出的框架，它們各自有不同的側重點，例如有的側重於多模態支持的生產應用 [13]，有的側重於靈活的對話模式 [65]，還有的側重於模擬軟件公司的參與者 [20]。
而 MALLM 與之相比，具有獨特的優勢：
全面性和模塊化：涵蓋了智能體、討論範式和決策協議等多個方面，爲用戶提供了更加全面的功能。
可定製性：與其他框架通常提供固定的討論模式或決策協議不同，MALLM 在智能體、討論格式和決策制定等方面都具有完全的可定製性，這使得它可以更好地滿足不同研究人員的需求，尤其適合進行深入的多智能體大語言模型的研究，爲研究人員提供了更多的自由度，能夠更深入地探究會話問題解決過程中多智能體大語言模型的性能和特性。
任務適用性：只要提供任務指令，該框架就可以應用於各種文本問題解決任務，具有廣泛的應用範圍，爲不同類型的文本問題解決提供了通用的工具和平臺。
Setup

實驗設置：

作者使用 MALLM 框架開展實驗，所依託的硬件是 8 個 Nvidia A100 GPU，每個 GPU 具有 40GB 的內存，使用的模型是 meta-llama/Meta-Llama-3-70B-Instruct。這爲實驗提供了強大的計算能力和模型支持。同時，爲了讓研究更加透明和可復現，將所有的實驗參數和提示信息都放在了附錄 A 和附錄 G 中，方便其他研究者查閱和使用這些信息，有助於他人重複該實驗或在該基礎上進行進一步的研究。

自動角色分配：

在多智能體討論中，爲智能體分配角色是一個重要環節。然而，對於每個示例都手動指定角色不太現實，因此採用了自動分配角色的方式。
具體做法是利用另一個大語言模型（meta-llama/Meta-Llama-3-70B-Instruct）爲每個示例生成一組三個專家角色。這樣做的目的是爲了激發豐富的討論，因爲不同的專家角色可以帶來多樣的信念、觀點和熟練度，有助於討論更加全面和深入。
自動角色分配的提示信息在附錄 G.4 中，並且這種方法借鑑了之前的 Solo-Performance-Prompting [63] 和 Meta-Prompting [54] 等研究成果，證明利用現有大語言模型自動生成和參考適合問題的角色是可行的。
在本研究中，選擇使用三個智能體，是綜合考慮了結構複雜度和研究深度的結果。相比使用兩個智能體，三個智能體可以展現更豐富的結構複雜度，同時又不會因爲過於複雜而難以從討論中提取有價值的信息，爲研究提供更有意義的見解。與其他研究不同的是，本研究中的角色是與任務和示例緊密相關的專家角色，而不是像某些研究 [47] 中使用的個性角色，這是爲了更好地契合研究目標，確保智能體在討論中能發揮其專業性和針對性。

討論範式：

討論範式是決定多智能體討論結構的重要元素。作者採用了尹等人 [71] 提出的四種討論範式，即記憶範式、報告範式、接力範式和辯論範式。

通過圖 3 可以直觀地看到這四種範式在結構上的差異，表 4 則提供了更詳細的關於智能體輪次順序和信息獲取情況的信息。
選擇這四種範式的主要原因是它們在輪次順序和信息可見性方面各具特色，能爲研究提供多樣的視角。以記憶範式爲例，所有智能體在每一輪都能參與討論並獲取全部信息，信息交流充分；而報告範式中則有兩個智能體不交換信息，且只有一箇中心智能體擁有全部信息，信息流動和交流方式相對獨特。
這種選擇與其他一些研究不同，像 [20, 46, 47] 這些研究通常只在單一固定的討論格式上評估系統，而本研究更注重從不同的討論結構中尋找差異和特徵。
雖然孫等人 [51] 也提出了其他討論範式，但由於這些範式涉及的智能體數量不同，與本研究設定的三個智能體的情況不符，所以不適合本研究。本研究重點關注的是不同討論格式帶來的特徵變化，而不是智能體數量的影響，因此選擇這四種範式更有利於達到研究目的，找出與討論結構相關的特徵。

共識決策：

決策機制對於多智能體討論的結束和最終結果的產生至關重要。這裏採用了一種類似共識的決策機制，稱爲迭代共識，它適用於本研究中的各種生成任務和問答任務。
在這個機制下，智能體在發送的每條消息中會被提示表明他們是否同意當前的方案，具體的提示信息在附錄 G.2 中。通過正則表達式文本匹配，可以提取出智能體的同意信息。
達成共識的具體規則是：在前五輪討論中，要求所有智能體都同意當前的草案；而在第五輪之後，只要多數智能體同意，討論就可以繼續，直至結束。但如果在極少數情況下，智能體無法達成共識，那麼在七輪之後，將最新的草案作爲最終的解決方案。
這種多數共識機制是一種靈活的決策協議，參考了尹等人 [71] 的方法。與其他研究相比，它的獨特之處在於，有些研究 [46] 不使用決策機制，有些研究 [51] 則是使用一個評判智能體來做最終決策，而本研究的多數共識機制更具靈活性和適應性，更能反映智能體之間的動態交互和討論的動態性，有助於根據不同的討論情況得出更合適的結果。

4.2 Datasets

任務和數據集的選擇細節：

任務來源與類型：
作者依據文本生成的分類法 [3] 挑選了多樣化的生成性任務。這些任務旨在全面測試多智能體系統的性能。
涵蓋了多種類型，包括：
摘要任務：使用 XSum [39] 數據集，旨在評估多智能體系統在將長文本提煉爲簡短摘要方面的能力。
翻譯任務：採用 WMT19 德英數據集 [11]，用於考察系統在不同語言間轉換的能力。
釋義類型生成任務：使用 ETPC [4, 29] 的釋義對，這是一個相對小衆的任務，與常見的摘要等任務相比，它可以在更具針對性的場景中測試多智能體系統的能力，能讓我們看到系統在一些特殊情況下的表現。
問答任務：包含 SQuAD2.0 [44]、簡單倫理問題 [16] 和 StrategyQA [15]三個不同的數據集，分別對應不同的問答需求，如提取信息能力、倫理考量和推理能力，從多個維度對多智能體系統的性能進行評估。
任務指令列表被放在附錄 G.1 的表 18 中，爲實驗的具體操作提供指導。
與以往研究的對比：
以前的多智能體研究往往將重點放在特定應用領域，例如故事寫作 [63] 或推理任務[5, 71]，旨在探究多智能體系統在這些領域能發揮的最大優勢。
而本研究的不同之處在於選擇了廣泛多樣的任務，旨在全面探索多智能體系統在各種場景下的表現，找出系統表現出色和表現不佳的場景，更深入地瞭解其性能邊界和適用範圍，而不是侷限於特定任務的性能優化。

數據集子集的選取機制：

資源限制與樣本選取的必要性：
由於多智能體討論過程中需要生成大量的標記（tokens），而可使用的計算資源是有限的，所以無法對整個數據集進行評估，因此需要從每個數據集中選取一個子集進行實驗。
抽樣計算方法：
作者採用了統計抽樣的方法，首先設定了 95% 的置信區間和 5% 的誤差範圍（MoE），並保守地假設樣本比例 p = 0. [8]。
通過公式

其中 Z_{0.975}=1.96，代入計算得到 n=384.16，將其近似爲 385。
然後使用公式

計算最終的子集大小 n_{subset}$，該公式考慮了數據集的總體大小 N_{dataset}，根據不同數據集的大小對樣本數量進行調整，確保在不同數據集下的抽樣合理性。
最終每個數據集都得到了幾百個樣本作爲測試集，完整的數據集細節可在表 1 中查看。
這種做法並非本研究首創，其他一些多智能體系統研究也有對數據集子集進行評估的先例 [5, 71]，但本研究提供了清晰的樣本大小計算依據，增強了實驗的科學性和可重複性。

實驗的重複和結果評估策略：

多次實驗的目的：
爲了進一步判斷實驗結果是否能夠準確反映完整數據集的情況，作者採用了多次重複實驗的方法。
具體來說，按照 Wang 等人 [59] 的思路，在隨機子集中將每個實驗重複五次，這樣做可以減少隨機誤差對實驗結果的影響。
標準差的使用：
通過報告每次實驗運行之間任務性能的標準差，來衡量結果的離散程度，從而評估實驗結果的可靠性。標準差能夠幫助我們瞭解實驗結果的穩定性，若標準差較小，說明實驗結果較爲穩定，更能反映真實情況；反之，則可能存在較大的不確定性，需要進一步分析。

4.3 Metrics

評估指標的總體使用原則：

對於實驗中表 1 所列出的各項任務，作者選用了一些已經被廣泛認可和使用的評估指標。這是爲了確保評估結果的科學性和可靠性，因爲這些成熟的指標可以從不同角度衡量系統在不同任務中的性能表現。
對於不同類型的任務，使用了不同的評估指標：
對於生成性任務（包括摘要、釋義類型生成和翻譯），採用傳統的重疊度量指標。這些指標主要是基於文本重疊的原理，通過比較生成的文本與參考文本在某種程度上的重疊程度來評估生成質量。
對於多項選擇題任務，採用準確率作爲評估指標。準確率可以直觀地反映出系統在多項選擇場景下正確回答問題的能力，簡單明瞭地衡量系統性能。
此外，除了常規指標外，還考慮了一些特殊的性能評估方面，例如評估生成性任務答案的詞彙多樣性，以考察系統生成內容的豐富度；以及評估提取式問答任務的可回答性，以瞭解系統能否準確判斷問題是否可解，這些額外的評估維度有助於更全面地瞭解系統的性能特點。
爲了更全面地評估生成性任務，除了基於傳統的 n-gram 的評估指標外，還使用了一種基於模型的指標，該指標可以捕捉到一些通過簡單的 n-gram 比較難以發現的上下文複雜相似性，使評估結果更加細緻和準確。

最終輸出的處理和解決方案提取：

在使用思維鏈（CoT）提示和 MALLM 對話進行實驗時，最終輸出包含的信息比較複雜，除了所需的解決方案外，還有諸如推理文本、同意表示等其他內容。
之前尹等人 [71] 採用的通過正則表達式文本匹配提取答案的方法存在侷限性，因爲不同任務下大語言模型生成的答案可能不具有標準化的格式，不能很好地適應各種數據集。
因此，作者採用了一種新的方法，即向特定的大語言模型（meta-llama/Meta-Llama-3-70B-Instruct）發送提示信息，以此來提取原始的解決方案，相應的提示信息可以在附錄 G.5 中找到。這種方式可以更好地從複雜的最終輸出中準確提取出所需的解決方案，爲後續的評估工作奠定基礎。

具體任務的評估指標細節：

摘要任務（XSum）：
使用 ROUGE-1、ROUGE-2 和 ROUGE-L [35] 指標。這些指標是專門用於評估摘要質量的。具體來說：
ROUGE-1 是基於一元組（unigram）的重疊度量，計算生成摘要和參考摘要中一元組的重疊情況，反映了詞彙層面的匹配程度。
ROUGE-2 是基於二元組（bigram）的重疊度量，從兩個詞的組合角度評估摘要質量，考慮了詞彙之間的順序關係。
ROUGE-L 是基於最長公共子序列（Longest Common Subsequence）的度量，考慮了生成摘要和參考摘要中最長的公共子序列，能夠更好地捕捉句子結構和語義連貫性，從更宏觀的角度評估摘要的相似性。
釋義類型生成任務（ETPC）：
除了使用與摘要任務類似的評估指標（上述的 ROUGE 指標）外，還根據 Wahle 等人 [58] 的建議使用 BLEU [42]指標。BLEU 指標常用於機器翻譯和文本生成領域，通過計算生成的釋義文本和參考釋義文本之間的 n-gram 重疊度，來評估生成的釋義的質量，從不同長度的 n-gram 角度衡量生成的文本與參考文本的相似性，是評估文本生成質量的經典指標。
翻譯任務（WMT19 de-en）：
同樣使用 BLEU [42] 指標進行評估，這是因爲在翻譯任務中，需要衡量從德語到英語的翻譯結果與參考翻譯的相似度，BLEU 指標通過計算 n-gram 的重疊情況，能夠在詞彙、短語等不同層次上評估翻譯的準確性和流暢性，爲翻譯質量的評估提供量化標準。
SQuAD 2.0 任務：
對於提取式問答任務，使用 F1 和精確匹配（Exact Match）分數來評估系統性能 [44]。F1 分數綜合考慮了召回率和精確率，精確匹配則直接判斷系統生成的答案是否與正確答案完全一致，從不同的精度和召回維度評估系統從文本中提取正確信息的能力。
爲了評估系統對不可回答問題的判斷能力，作者修改了對智能體的任務指令，如果系統無法從源文檔中找到答案，要求智能體輸出 [unknown] 作爲解決方案。然後通過正則表達式文本匹配來檢查這種分類的準確率，從而評估系統在判斷問題可回答性方面的性能，從另一個角度考察系統的能力，不僅僅是回答問題的能力，還包括對問題可解性的判斷能力。
StrategyQA 和 Simple Ethical Questions 任務（多項選擇任務）：
對於這兩個多項選擇任務，根據任務指令，要求模型輸出與正確答案相對應的字母。在評估時，使用準確率作爲指標，直接反映系統正確選擇答案的比例，簡單直觀地衡量系統在這些任務中的性能。
生成性任務的詞彙多樣性評估（Distinct-n）：
使用 Distinct-1 和 Distinct-2 指標，它們是無參考指標，通過計算生成響應中不同一元組（Distinct-1）和二元組（Distinct-2）的數量，來評估生成內容的詞彙多樣性。這可以反映出系統生成的文本在詞彙使用上的豐富度和多樣性，避免生成內容過於單調或重複。
基於模型的指標（BERTScore）：
爲了避免僅依賴基於 n-gram 的評估指標的侷限性，對於生成性任務添加了 BERTScore [73] 指標。BERTScore 利用嵌入技術，能夠從語義和上下文的角度評估生成文本與參考文本的相似性，這是因爲一些語義上的相似性無法通過簡單的 n-gram 比較來準確體現，而 BERTScore 可以發現這些更復雜的上下文相似性，從而更全面、準確地評估生成性任務的性能。

5 Experiments

實驗一：

任務評估對象：多智能體系統的任務執行情況。
評估方式：涉及六項不同任務和四種討論範式，這表明在實驗中會對多個任務場景以及多種不同的討論模式進行考察。
評估目標：找出這些多智能體系統在不同任務和討論範式下的關鍵優勢和不足，這有助於研究者瞭解多智能體系統在不同條件下的性能表現，可能爲後續的改進或進一步研究提供依據。

實驗二：

關注重點：多智能體討論的趨同情況。
具體操作：旨在解釋對話是如何展開的，這裏的趨同可能是指多智能體之間在討論過程中逐漸形成的某種一致性，例如對某個問題的看法、決策或解決思路的一致性等。
影響因素分析：分析趨同情況會依據任務的不同而有所不同，並且討論範式也會對趨同過程產生影響，這意味着不同的任務需求和討論規則會影響多智能體討論的最終結果，有助於探究在不同條件下多智能體之間的協作與信息交流機制。

實驗三：

量化內容：大語言模型（LLM）智能體在對話進程中的影響力。
研究方向：主要從智能體的角色設定和生成內容長度兩個方面來考察。智能體的角色設定可能會影響其在對話中的態度、行爲和貢獻，而生成內容長度可能會影響對話的信息量和發展方向，通過量化這些因素對對話進程的影響，可以更深入地理解大語言模型智能體在整個對話系統中的作用。

5.1 Task Performance

實驗目的與研究問題

將多智能體 LLM 用於對話任務解決的概念與單一模型在多種下游任務（基本任務：摘要、翻譯等；複雜任務：策略性和道德性問答）上進行對比評估，旨在揭示多智能體討論的優缺點和差異，提出多個關鍵研究問題：
哪些討論範式優於單一 LLM，其性能是否依賴任務？
討論的內部通信結構的重要性如何？與思維鏈提示相比多智能體系統的表現怎樣？
多智能體間討論有何特徵？多智能體 LLM 在識別不可答問題上是否更有效？

實驗設置與方法

遵循第 4.1.1 節的方法，將記憶、接力、報告、辯論四種討論範式與以思維鏈爲基線的單一 LLM 對比。

實驗結果

性能與任務的關係：
多智能體 LLM 在複雜推理任務（策略性和道德性問答）上比帶思維鏈的單一 LLM 展現更強推理能力，但在基本任務（如翻譯）中因問題漂移而表現不佳。
多智能體系統在複雜任務上的性能改進顯著，如在戰略和道德性問答中準確率比思維鏈基線高出多達 4.0%，體現智能體對方案的迭代細化優勢，與部分前人研究相符；但在基本任務中改進不明顯，在 WMT19 翻譯任務中 BLEU 得分甚至大幅下降，問題漂移導致智能體可能偏離問題和參考解，趨向討論而非得出單一答案，而不同基本任務的表現受任務特性影響，如翻譯答案空間受限，摘要則有複雜語境要求。
內部通信結構的影響：
集中式討論範式（如報告範式）可提高多智能體 LLM 的道德一致性，在簡單道德問題數據集上準確率提高多達 6.6%，因該範式信息可見性不同，能促進更優的決策過程，未來應進一步研究道德一致性及探索更多集中式範式，可考慮性別偏見和毒性等相關數據集。
識別不可答問題的能力：
多智能體 LLM 在識別不可答問題方面與單一 LLM 相比無顯著差異，在 SQuAD 2.0 數據集上最佳範式（接力）僅將可答性檢測準確率提高 0.5%，表明二者都不夠準確，需額外系統輔助。

主要結論

多智能體 LLM 推理能力強於帶思維鏈的單一 LLM。
多智能體系統可提升最終響應的道德一致性。
具有信息限制的集中式範式利於道德一致性討論。
思維鏈在基本任務上因問題漂移優於多智能體 LLM。
多智能體和單一 LLM 在檢測不可答問題時表現相近。

5.2 Discussion Convergenc

實驗目的和研究問題

旨在通過研究多智能體討論的長度，深入理解其從開始到達成最終解決方案的過程，探究共識機制對討論趨同的影響及對任務性能的影響。關鍵研究問題包括不同討論範式與單一 LLM 的有效性比較、內部通信結構的重要性、影響任務性能的因素（尤其關注討論長度的影響）、LLM 智能體討論的特徵（重點是對困難例子的討論）。

實驗設置與方法

第一部分實驗遵循 4.1.1 節的方法，結合五次實驗的樣本評估，以交換消息數來比較討論範式，測試標記長度對任務性能的影響。
第二部分實驗比較 MALLM 和單一模型在不同回合數的性能，將二者在同一子集上進行單次非隨機化運行並拆分結果，以確保可比性。

實驗結果

討論長度對任務性能的影響：
取決於任務，推理任務受益於更多討論回合，但長時間討論可致道德一致性崩塌。大多數討論收斂快，多在前三回合結束，基本任務的性能不因討論長度而提高，且智能體偏好會拖長討論致問題漂移，而簡短討論能提升道德一致性，長時間討論會導致一致性崩塌，可能因智能體更具探索性，問題漂移可能是促成因素之一，需進一步探究其他因素。
內部通信結構的重要性：
智能體完全信息訪問能加速共識達成，不同範式的信息吞吐量不同，記憶範式共識最快，辯論範式需最多消息交換，接力範式因信息可見性受限導致共識慢，儘管其性能與記憶範式相似，因此響應速度重要時應選智能體間透明的範式。
對困難樣本的討論情況：
多智能體 LLM 會根據問題難度調整討論長度，困難樣本通常需要更多回合，其性能會隨回合數增加而下降，道德一致性下降明顯，僅策略性問答任務在困難樣本的長討論中受益，因該任務需多智能體的推理和規劃能力。

主要結論

多數多智能體討論在前三回合達成共識。
完全信息訪問可加快共識。
短討論可減輕問題漂移。
長討論能提高推理能力但致道德一致性崩塌。
多智能體 LLM 會根據問題難度調整討論時長。

5.3 Impact of Agents

實驗概述

旨在研究多智能體討論中個體智能體的影響，考慮智能體的角色（personas）和在討論範式中的位置。關注角色對討論結果的量化影響、智能體響應長度與角色和結構的關係、多智能體與單 LLM 的詞彙多樣性差異，以及這些因素對任務性能的影響。

實驗設計

實驗將原有的三個專家角色中的一個替換爲中性草案提議者智能體進行對比，不改變其他參數。通過關注最核心智能體，查看前十個最常生成的角色在不同範式中的表現，研究響應長度和決策壟斷問題，還通過散點圖研究總標記數、平均消息標記數與任務性能的關係。

實驗結果

角色對任務的影響：
角色設定對複雜任務（如策略性問答、道德性問答）有益，但會損害簡單任務（如翻譯）的性能，在複雜任務中體現出超越單模型的價值，而對基本任務影響不顯著，其影響與任務複雜性有關，複雜任務使用角色設定更好，簡單任務不建議使用。
詞彙多樣性差異：
多智能體系統中使用角色設定可提高詞彙多樣性，尤其在 ETPC 數據集上有顯著提升，但會導致 ROUGE-L 分數下降，如何在保證性能的同時利用詞彙多樣性有待研究。
響應長度與角色和結構的關係：
範式中的核心智能體在生成性任務中貢獻更長信息，不同任務和範式下的角色生成長度不同，生成性任務對結構變化更敏感，可能存在響應長度不平衡的問題。大部分任務中響應長度與對響應的同意率無明顯相關性，但 XSum 數據集在這方面表現不同，較長響應在該任務中更易獲同意，可能導致討論壟斷，此結果支持了相關壟斷假設，未來需進一步研究壟斷因素。
對 XSum 數據集和記憶範式的散點圖分析顯示，智能體響應的平均長度和總標記數對任務性能影響小，較長討論往往導致性能下降，還需更細粒度地評估個體智能體響應長度。

主要結論

專家角色設定利於複雜任務，可提升詞彙多樣性，核心智能體在生成任務中貢獻較長信息，在摘要任務中較長響應可能引發討論壟斷風險。

6 Epilogue

主要研究內容及成果

構建與實驗：通過文獻調研構建多智能體 LLMs 領域及分類法，提出 MALLM 框架用於多智能體對話問題解決的研究，開展實驗探索討論範式有效性、任務性能影響因素和多智能體對話特徵等。
研究問題結論：
多智能體系統在複雜任務上優於單一模型，但在基本任務因問題漂移而性能受損，信息訪問對道德一致性答案重要。
討論長度和個體智能體影響任務性能，多數討論三回合內達共識，部分複雜任務受益於長討論，個體智能體在複雜任務中對性能有影響，且核心位置智能體在生成任務中會致響應長和摘要任務壟斷。
多智能體系統對困難問題討論時間長且適應複雜性，專家角色能提升詞彙多樣性，但不影響抽取式問答的不可答問題檢測。

未來工作方向

可在複雜任務、系統安全、個體智能體影響和實證研究方面開展，包括測試高複雜度數據集、設計安全模塊、探索防止討論壟斷架構、研究其他角色和決策機制等。

研究侷限

因範圍和資源限制，未評估所有影響結果的參數，報告所用參數並提供代碼，數據集抽樣受資源限制，提供抽樣說明和結果標準差表示代表性。

論文：Multi-Agent Large Language Models for Conversational Task-Solving

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/eFHbrYt6ofeG0bjtNsyaHQ

1 Introduction

2 Related Work

3 Taxonomy

3.1 Agents

3.2 Discussion

3.3 Decision Making

4 Methodology

4.1 MALLM Framework

4.2 Datasets

4.3 Metrics

5 Experiments

5.1 Task Performance

5.2 Discussion Convergenc

5.3 Impact of Agents

6 Epilogue

猜你喜歡