一種模塊化大模型 Agent 框架全棧技術綜述

現有基於 LLM 的智能體雖然在功能上取得了進展，但缺乏模塊化，導致在研究和開發中存在術語和架構上的混淆，在軟件架構上缺乏統一。

“A survey on LLM based autonomous agents” 提出的框架，它並沒有明確指出大型語言模型（LLM）、工具、數據源和記憶是否是 Agent 的一部分。這種對每個模塊功能的模糊區分促進了軟件開發者之間的分裂，並導致不兼容和阻礙了可重用性

LLM-Agent-UMF 框架通過明確區分智能體的不同組件，包括 LLM、工具和新引入的核心智能體（core-agent），來解決這些問題。核心智能體是智能體的中央協調器，包含規劃、記憶、檔案、行動和安全五個模塊，其中安全模塊在以往的研究中常被忽視。

核心智能體作爲基於大型語言模型（LLM）智能體的中心組成部分

核心智能體（core-agent）的內部結構

核心智能體（core-agent）是 LLM-Agent-UMF 框架的關鍵組成部分。核心智能體被設計爲智能體的中央協調器，負責管理和協調智能體的各種功能和組件。內部結構被劃分爲五個主要模塊，每個模塊都有其特定的功能和責任：

核心智能體的內部結構

規劃模塊（Planning Module）：

規劃模塊是核心智能體的關鍵組成部分，負責將複雜的任務分解成可執行的步驟，並生成有效的行動計劃：
規劃過程（Planning Process）：
任務分解（Task Decomposition）：將複雜任務分解爲更簡單的子任務，建立中間目標的層次結構。
計劃生成（Plan Generation）：爲每個子任務制定具體計劃，包括所需工具和參與方。
規劃策略（Planning Strategies）：
單路徑策略（Single-path Strategy）：生成單一路徑或程序序列來實現目標，不探索替代方案。
多路徑策略（Multi-path Strategy）：生成多個計劃，評估並選擇最合適的路徑。
規劃技術（Planning Techniques）：
基於規則的技術（Rule-based Technique）：使用符號規劃器和 PDDL 等正式推理方法。
語言模型驅動的技術（Language Model Powered Technique）：利用 LLM 的知識和推理能力來制定規劃策略。
反饋源（Feedback Sources）：
人類反饋（Human Feedback）：來自核心智能體與人類的直接互動，用於調整規劃以符合人類價值觀和偏好。
工具反饋（Tool Feedback）：來自核心智能體使用的內部或外部工具的反饋，用於優化工具選擇和使用策略。
同級核心智能體反饋（Sibling Core-Agent Feedback）：來自同一系統內不同核心智能體之間的互動和信息交換。

記憶模塊（Memory Module）：

負責存儲和檢索與核心智能體活動相關的信息，以提高決策效率和任務執行能力。
記憶結構分爲短期記憶和長期記憶，分別對應不同的信息存儲和檢索需求。
記憶位置包括嵌入式記憶（核心智能體內）和記憶擴展（核心智能體外，但在智能體系統內）。
記憶格式可以是自然語言、嵌入向量、SQL 數據庫或結構化列表。

檔案模塊（Profile Module）：

定義 LLM 的角色和行爲，以適應特定的用例和策略。
包含多種方法，如手工製作上下文學習方法、LLM 生成方法、數據集對齊方法和新引入的微調可插拔模塊方法。

行動模塊（Action Module）：

將智能體的決策轉化爲具體行動，通過行動目標、行動產生、行動空間和行動影響四個視角來定義。
行動產生方法包括通過記憶回憶、計劃遵循和 API 調用請求來執行行動。

安全模塊（Security Module）：

監控行動模塊，特別是在生產環境中，以確保 LLM 的安全和負責任的使用。
遵循機密性、完整性、可用性（CIA）原則，確保信息和資源的安全。
安全措施包括提示保護、響應保護和數據隱私保護。

核心智能體（core-agent）的分類

對核心智能體進行了分類，區分爲主動核心智能體（Active Core-Agents）和被動核心智能體（Passive Core-Agents），以闡明它們在結構和功能上的差異。

主動和被動核心智能體的內部結構

主動核心智能體（Active Core-Agents）：

包含規劃、記憶、檔案、行動和安全五個模塊。
負責協調和管理智能體的其他組件，需要規劃模塊來分解任務、提供上下文、分析信息和做決策。
具有狀態性（stateful），能夠維護關於其過去交互和狀態的信息。
能夠控制 LLM 的行爲和檔案，具有動態適應不同任務的能力。
在多核心智能體系統中，可能需要複雜的同步機制。

多主動核心智能體架構

被動核心智能體（Passive Core-Agents）：

主要負責執行特定程序，通常不包含規劃和記憶模塊。
通常是無狀態的（stateless），只處理當前任務的狀態。
行動模塊是其核心，根據外部指令（如 LLM 或主動核心智能體的指令）執行操作。
與人類的互動通常是單向的，只能由被動核心智能體發起。
在多核心智能體系統中，集成新的核心智能體相對簡單，因爲它們主要執行特定的、有限的任務。

包括被動核心智能體的基於大型語言模型（LLM）的智能體架構

多被動核心智能體架構

混合多核心智能體（Hybrid Multi-Core Agent）架構，

這是一種結合了主動核心智能體（Active Core-Agents）和被動核心智能體（Passive Core-Agents）的智能體設計。
利用主動核心智能體的管理和協調能力，以及被動核心智能體的執行特定任務的能力。
在保持系統靈活性和可擴展性的同時，處理更廣泛的任務。

一主動多被動核心智能體混合架構

多主動多被動核心智能體混合架構

核心智能體（core-agent）的有效性

驗證 LLM-Agent-UMF 框架在設計和改進多核心智能體系統中的應用價值。
展示如何通過合併不同智能體的特性來創建具有增強功能的新型智能體。
通過將 LLM-Agent-UMF 框架應用於現有的智能體，如 Toolformer、Confucius、ToolLLM 和 ChatDB，來識別和分類這些智能體中的核心智能體及其模塊。

使用 LLM-Agent-UMF 對最新智能體進行分類。

Toolformer 和 Confucius 的多被動核心智能體系統：結合了 Toolformer 和 Confucius 的被動核心智能體，以處理特定的工具調用和任務執行。

基於大型語言模型的智能體 1（LA1）：Toolformer 和 Confucius - 多被動核心智能體架構。

ToolLLM 和 ChatDB 的多主動核心智能體系統：將 ToolLLM 的 API 檢索能力和 ChatDB 的複雜推理能力結合起來，創建了一個能夠執行高級任務規劃和執行的智能體。

基於大型語言模型的智能體 2-A（LA2-A）：ToolLLM 和 ChatDB - 多主動核心智能體架構。

https://arxiv.org/pdf/2409.11393
LLM-AGENT-UMF: LLM-BASED AGENT UNIFIED MODELING FRAMEWORK FOR SEAMLESS INTEGRATION OF MULTI ACTIVE/PASSIVE CORE-AGENTS

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/raB8HGPOjML3FRZ9NANmNQ

猜你喜歡