AI Agent 基礎設施

1. Agent 定義

AI Agent 是利用人工智能技術以實現特定目標併爲用戶完成任務的軟件系統。它們展現出推理、規劃、記憶以及一定程度的自主性,能夠進行決策、學習和適應環境 。這些 Agent 能夠同時處理包括文本、語音、視頻、音頻和代碼在內的多模態信息,並具備對話、推理、學習和決策的能力 。

Agent 和 Workflow 的區別:Workflow 是把固定的流程和邏輯固化成工作流,處理流程是固定的;而 Agent 則在運行時確定執行方案、調用工具、反思,具備較大的自主性。

理解 AI Agent 的這些高級能力,如自主性和複雜決策制定,對於將其與如簡單的聊天機器人或基礎 AI 助手等更簡單的自動化系統區分開來至關重要。這種區分也解釋了爲何 AI Agent 需要更爲複雜和精細的基礎設施支持。

Agent 的基礎設施,應該覆蓋 Agent 從研發到部署、運營等整個生命週期。

2. AI Agent 的核心功能組件

AI Agent 的強大功能源於其內部多個核心組件的協同工作。這些組件共同構成了 Agent 的感知、思考、決策和行動能力。

2.1. “大腦”:核心 LLM、推理與規劃

AI Agent 的 “大腦” 是其智能的核心,主要由大型語言模型(LLM)、推理機制和規劃模塊構成。

2.2. 感知與行動模塊:與環境交互

爲了使 Agent 不僅僅停留在對話層面,它需要感知其所處的數字或物理環境,並據此採取行動。感知和行動模塊即是 Agent 的 “感官” 和“效應器”。

環境感知是至關重要的。LLM 只負責推理,而針對的場景要有環境感知模塊決定。如果獲取的數據不對,那麼 LLM 也很難給出完美的答案。

2.3. Memory:學習與維護上下文

Memory 將 LLM 從一個無狀態的處理器轉變爲一個能夠學習和適應的 Agent。強大的記憶能力對於 Agent 的連續性、連貫性、從過去的交互中學習以及通過回憶歷史交互和適應新情況來提高性能至關重要 。LLM 缺乏個性化,而記憶系統充分提取個性化特徵,是的 LLM 可以根據個性化特徵給與個性化回覆。

在 Memory 中又分爲長期記憶和短期記憶:

*    通常在 LLM 的上下文窗口內處理,用於支持輪次間的對話和即時回憶 。它能夠維持會話內的上下文 。
    
*    對於需要在多次交流中保持上下文的對話式 AI 非常有用 。
    
*    由於上下文受限,在短期記憶中,如果把全部的會話記錄都保存下來,會導致 LLM 失去重點,產生幻覺。因而更好的方式是對短期記憶進行不斷地總結、歸納,提取出需要的信息。因而在短期記憶中,總結能力是必須的。而召回能力則不是。
*    涉及對交互歷史、事實或學習到的行爲進行持久化存儲,通常使用向量數據庫(如 FAISS、Pinecone)或知識圖譜來實現 。
    
*    使 Agent 能夠從過去學習,提取洞察以改進未來的會話 。以及提供個性化的能力。
    
*    LTM 的類型包括 :
    

	*    情景記憶 (Episodic Memory):回憶特定的過去經歷或事件。通過記錄關鍵事件、行動及其結果來實現。
	    
	*    語義記憶 (Semantic Memory):存儲結構化的事實知識(如事實、定義、規則)。通過知識庫、符號 AI 或向量嵌入來實現。
	    
	*    程序記憶 (Procedural Memory):存儲和回憶技能、規則和學習到的行爲,以便自動執行任務。通常通過強化學習獲得。

短期記憶和長期記憶之間的區別,以及各種長期記憶類型,凸顯了強大記憶基礎設施所需的複雜性。向量數據庫是實現有效長期記憶的關鍵賦能技術。

2.4. 工具集成與使用:擴展 Agent 能力

LLM 本身受限於其訓練數據。工具爲 Agent 提供了訪問實時信息、外部系統和專業功能的途徑,從而極大地擴展了 Agent 的實際應用能力。

工具的使用將一個被動的 LLM 轉變爲一個能夠執行現實世界任務的主動 Agent 。這些工具使 LLM Agent 能夠與外部環境(如維基百科搜索 API、代碼解釋器、數學引擎)、數據庫、知識庫和外部模型進行交互 。集成點包括 Web 搜索和摘要 API、數據庫查詢(SQL 生成器)、代碼執行引擎以及各種第三方服務 。

在工具中,涉及到的內容包括:

*    MCP 協議:LLM 和工具之間的標準化交互協議。
    
*    A2A 協議:Agent2Agent 的交互協議。
*    搜索類:搜索應該是一些場景的基礎,例如問答類機器人。搜索相關的上下文可以提升信息的時效性,提供更加準確的信息。例如 tavily,提供了搜索的 API。
    
*    數據爬取:爬蟲或者數據類產品,例如 Firecrawl 是一款 可以將網站轉換爲 Markdown 格式的爬蟲工具 ,主要 提供 API 服務 ,無需站點地圖,只需要接收一個 URL 地址就可以爬取網站及網站下可訪問的所有子頁面內容。
    
*    UI-Automation:操作瀏覽器類工具。
    
*    支付類工具:提供支付服務。

2.5. 路由器 / 控制器:管理複雜工作流

隨着 Agent 處理日益複雜、涉及多個工具或子 Agent 的多步驟任務,一個有效的控制器對於協調這些組件變得至關重要。

在複雜的 Agent 中,路由機制根據任務需求決定調用哪個工具或子流程 。這個控制器管理動態工作流,並在推理、記憶檢索和工具執行之間進行協調,確保 Agent 能夠根據實時情況做出適當響應 。

AI Agent 的核心功能模塊——大腦(LLM、推理與規劃)、感知與行動、記憶、工具和控制器——並非簡單相加,而是高度相互依賴。任何一個環節的薄弱都會顯著削弱整體的 “智能代理” 能力。例如,一個擁有強大 LLM 但記憶系統欠佳的 Agent 無法有效學習或維持上下文。一個規劃能力出色但缺乏工具的 Agent 則無法與外部世界互動。因此,Agent 基礎設施的設計需要採取整體方法,確保每個組件不僅自身強大,而且能與其他組件無縫高效集成。工具的多樣性、可靠性和可訪問性是決定 Agent 解決廣泛現實世界問題能力的主要因素。基礎設施不僅要允許工具使用,更要促進廣泛且可擴展工具集的輕鬆集成、管理和安全調用。同樣,記憶系統的複雜程度(如短期記憶、長期記憶類型、檢索機制)對 Agent 學習、長期適應和提供個性化體驗的能力至關重要。基礎設施必須支持多種信息類型的有效編碼、強大的檢索機制(如基於向量數據庫的 RAG)以及潛在的分層結構,以有效管理不同範圍的記憶。

3. Agent 系統運維基礎設施

爲了確保 AI Agent 系統在實際應用中的高效、穩定和安全運行,一套關鍵的運維基礎設施必不可少。這包括 LLM API 網關、緩存策略以及安全的工具執行環境。

3.1. LLM API 網關:統一訪問、安全與可觀測性

隨着企業越來越多地使用多個 LLM 或微調模型,以及提供企業內的服務,LLM API 網關成爲管理訪問、確保安全、優化性能和控制成本的關鍵組件。它將底層模型的複雜性從應用開發者那裏抽象出來。

LLM 網關充當訪問多個 LLM 提供商或自託管模型的集中接口,提供統一的 API 。它簡化了處理特定模型 API、速率限制、重試機制和基礎設施差異的複雜性 。其核心功能包括 :

3.2. LLM 響應的緩存策略:性能與成本優化

LLM 的推理過程可能既緩慢又昂貴。有效的緩存對於構建響應迅速且經濟高效的 Agent 應用至關重要,尤其適用於處理常見問題或重複任務的場景。

LLM 緩存通過存儲和重用先前計算的 LLM 響應來減少延遲和計算成本 。主要的緩存策略包括:

緩存設計模式包括單層 LLM 緩存、多層緩存(例如,第一層精確匹配,第二層語義匹配)以及基於 RAG 的緩存(預檢索文檔緩存和後檢索響應緩存)。有效的緩存管理還涉及可配置的緩存過期策略、緩存失效機制、優化緩存命中率以及平衡緩存大小與內存使用(例如,使用最近最少使用 LRU 淘汰策略)。緩存的典型用例包括客戶支持機器人(處理高頻查詢)、搜索引擎(緩存常用搜索詞)、推薦系統和內容生成應用 。

對於交互式 Agent,尤其是在對話或執行實時任務時,低延遲對於用戶滿意度和感知智能至關重要。語義緩存能夠處理措辭變化的查詢,顯著提高了緩存命中率,這意味着更多用戶請求可以從緩存中快速得到服務,從而減輕了對 LLM 的負載。因此,複雜的、可能是多層次的、並利用語義理解的緩存策略,是構建高性能、可擴展的 Agent 系統的重要基礎設施組成部分。

3.3. 安全的工具執行環境:沙箱與憑證管理

如果 Agent 能夠執行代碼或通過 API 與外部工具交互,確保這一過程的安全性至關重要。Agent 自主性的增加,特別是在使用工具(如執行代碼)時,會引入重大的安全風險,例如任意代碼執行 。

沙箱 (Sandboxing) 對於管理資源和創建安全的執行環境至關重要,它可以封裝潛在的有害代碼,防止其影響更廣泛的系統 。

4. Agent 編排與協作

Agent 的智能不僅僅體現在其個體能力上,更在於它們如何組織自己的 “思維” 過程以及如何與其他 Agent 或系統進行協作。編排模式和系統架構的選擇對 Agent 的整體效能有深遠影響。

4.1. 關鍵編排模式:構建 Agent 思維與行動

編排模式爲 Agent(或其 LLM 大腦)如何處理問題、制定決策以及與工具互動提供了框架。選擇合適的模式會影響 Agent 的能力、複雜性和可解釋性。

4.2. 單 Agent 與多 Agent 系統架構

問題的複雜性往往決定了是單個高能力的 Agent 足夠,還是一個由專業化、協作的 Agent 組成的團隊更爲有效。這一選擇對通信和協調基礎設施有重大影響。

從單 Agent 系統轉向多 Agent 系統不僅僅是數量上的擴展,更是一種質的轉變,引入了 Agent 間通信、協調和信任等挑戰,這些都需要專門的基礎設施組件來支持。單個 Agent 主要進行內部推理,而多個 Agent 則必須有效溝通,可能還需要協商、解決衝突,並維持共享的態勢感知或目標。這意味着 MAS 基礎設施需要的不僅僅是單個 Agent 的執行環境,還需要強大的 Agent 間通信協議(例如,支持雙向通信 )、共享內存或 “黑板” 系統 、角色管理,以及可能更高級別的編排器或 “管理 Agent”(如 CrewAI 的層級化流程 )。MAS 的“社會” 動態意味着基礎設施不僅要支持計算,還要支持協作。

5. 開發、部署與管理

構建、部署和有效管理 AI Agent 系統,需要依賴於合適的開發框架、遵循 LLMOps 的最佳實踐,並對基礎設施的構建與購買做出戰略性決策。

5.1. 開源 Agent 框架概述

開源 Agent 框架旨在通過提供預構建的組件和抽象來簡化 Agent 的開發過程。瞭解它們的理念、優勢和劣勢是選擇合適工具或決定採用自定義方法的關鍵。

在開源 Agent 框架中,其主要作用是負責 Agent 邏輯的編排,而過度封裝則導致使用複雜。Langgraph 是這比較符合 Agent 工程的框架。

5.2. Agent 系統的 LLMOps:生命週期管理

隨着 Agent 從原型走向生產環境,系統化的 LLMOps 方法對於確保其可靠性、可擴展性和持續改進至關重要。Agent 系統因其推理、規劃和工具使用能力,爲傳統的 MLOps 帶來了新的複雜性。

LLMOps 的定義與重要性:LLMOps 是指在 LLM 的整個生命週期中對其進行管理,包括開發、測試、部署、監控和優化 。它是 MLOps 的一個專門子集,專注於生成式 AI 模型 。LLMOps 之所以重要,是因爲它有助於避免諸如錯誤答案、安全漏洞和模型性能下降等風險,確保模型輸出的一致性和高性能 。

針對 Agent 的關鍵 LLMOps 實踐 :

Agent 的評估與監控 :

Agent 評估是比較重要的基建,甚至比其他內容還要重要,因爲其他內容是可以由 LLM 自動生成出來的。而評估,則是要有用戶制定粗來評估內容,以符合用戶的目標。在一些產品中,例如 Databricks 的 AgentBrick,採用評估驅動的方式自動生成 Agent。用戶定義好目標和評估指標,服務自動生成滿足要求的 Agent

6. 企業應用與架構考量

將 AI Agent 應用於企業實際業務場景,不僅能帶來顯著效益,也對現有 IT 架構提出了新的挑戰。理解這些應用和挑戰,對於成功部署和擴展 Agent 系統至關重要。

6.1. 真實世界的企業用例

通過具體的用例可以更好地理解 Agent 基礎設施在實際應用中的價值和需求。

6.2. 企業規模化採用的架構挑戰

將 AI Agent 從試點項目推廣到企業範圍的部署,會暴露出一些重大的架構和運營挑戰,這些挑戰必須通過相應的基礎設施來解決。

7. Agent 基礎設施的挑戰與未來方向

AI Agent 基礎設施領域正經歷快速發展,同時也面臨着諸多技術挑戰。洞察這些挑戰並把握新興趨勢,對於規劃和構建面向未來的 Agent 系統至關重要。

7.1. 當前技術挑戰

儘管 AI Agent 展現出巨大潛力,但其基礎設施仍面臨一些亟待解決的技術難題:

7.2. 新興趨勢

展望未來,Agent 基礎設施正朝着更智能、更協同、更可信的方向發展:

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/xp1f1BistZxy9rES3We3sA