一文了解 AI Agent（智能體）

一、前言

AI Agent（人工智能代理）是上半年一個火熱的話題。筆者最近對相關概念進行了學習與研究，期間也通過智能體開發平臺成功搭建了一些有趣的 Agent。所以計劃通過本篇文章，跟大家分享筆者對於 AI Agent 的些許理解。

二、AI Agent 是什麼

AI Agent，即人工智能體，是一種能夠感知環境、進行自主理解、決策和執行動作的智能實體。簡單理解，是一種基於大語言模型，能夠通過獨立思考、調用工具來逐步完成給定目標的計算機程序。

可能大家會疑問，AI Agent 又和 LLM、RAG 有什麼區別？他們之間的關係又是怎樣的？

我們不妨，先通過對比 LLM、RAG 的用途，來更好地理解 AI Agent。

1、LLM

LLM（大語言模型）是基於海量文本數據訓練的深度學習模型，能夠生成自然語言文本、深入理解文本含義，並處理各種自然語言任務，如文本摘要、問答、翻譯等。簡單理解是語言的邏輯推理，如我們常見的 Chat GPT、文心一言、通義千問等

但由於 LLM 的知識是提早訓練好的內容，時效性不強；加上用於訓練的知識一般來源於公域的標準化知識，存在侷限性。

爲了解決 LLM 知識有限的問題，需要把外部的知識提供給 LLM 進行學習，讓它理解之後表達出來，這時候就需要用到 RAG 技術。

2、RAG

RAG（檢索增強生成）是一種結合了外部信息檢索與大型語言模型生成能力的技術，用於處理複雜的信息查詢和生成任務。在大模型時代，RAG 通過加入外部數據（如本地知識庫、實時數據等）來增強 AI 模型的檢索和生成能力，提高信息查詢和生成質量。比如：文心一言的插件服務，支持把實時又或者私有化知識提供給 LLM。

總結而言，RAG 是一種技術，作用於 LLM，目的是增加輸出結果的準確性。

3、AI Agent 與 LLM、RAG 的關係

如果把 AI Agent 理解爲一個智能實體的話，LLM 充當着智能體的 “大腦” 角色。

AI Agent 會利用 LLM 的推理能力，把問題進行拆解，形成一個一個的小問題，並定義好這些小問題之間的前後關係，先處理哪個，再處理哪個。然後按照順序，調用 LLM 、 RAG 或者外部工具，來解決每一個小問題，直至解決最初的問題。

三、AI Agent 的基礎架構

上文提及到，LLM 充當着智能體的大腦，但僅僅有 “大腦” 並不能完成複雜任務的執行。作爲智能體，還需要如 “神經感官系統” 以及 “肢體” 的參與，這時候引入 AI Agent 的基礎架構。

▲由 LLM 驅動的智能體系統

如上圖所示，Agent 由 4 個關鍵部分組成，分別是：規劃（Planning）、記憶（Memory）、工具（Tools）、行動（Action）

1、規劃（Planning）

“規劃” 充當着智能體的 “思維模式”。如果用人類來類比，當接到一個任務時，我們的思維模式可能會像下面這樣：

首先會思考怎樣完成這個任務。
然後會把任務拆解成多個子任務分步進行。
接着評估現有工具能夠幫助我們高效達成目的。
在執行任務的時候，我們會對執行過程進行反思和完善，以持續調整策略。
執行過程中思考任務何時可以終止。

因此，我們可以通過 LLM 提示工程（Prompt），爲智能體賦予這樣的思維模式。比如：在編寫 Prompt 的時候運用 ReAct、CoT 等推理模式，引導 LLM 對複雜的任務進行拆解，拆分爲多個步驟，一步步思考和解決，從而使輸出的結果更加準確。

2、記憶（Memory）

記憶是什麼？當我們在思考這個問題，其實人類的大腦已經在使用記憶。記憶是大腦存儲、保留和回憶信息的能力。

仿照人類的記憶機制，智能體分爲了兩種記憶機制

短期記憶，如：單次會話的上下文記憶會被短暫的儲存，以用於多輪會話，在任務完結後被清空。
長期記憶，長時間被保留的信息，如：用戶的特徵信息、業務信息，通常用向量數據庫來存儲和快速檢索。

3、工具（Tools）

智能體具備感知環境與決策執行的能力，這離不開 “神經感官系統” 的幫助，“工具”便充當着這個角色。智能體通過工具從周邊環境獲取到信息（感知），經過 LLM 處理後再使用工具完成任務（執行）。

所以我們需要爲智能體配備各種工具以及賦予它使用工具的能力。比如：

通過調用軟件系統不同應用模塊的 API，獲取到指定的業務信息，以及執行業務的操作權限。
通過調用外部的插件工具，來獲取原本 LLM 並不具備的能力，如：文心的 Chat files 插件獲取文檔解析能力；釦子的 ByteArtist 插件獲取文生圖能力等。

這裏便運用到了上文提及的 RAG 相關技術

▲釦子平臺的插件商城

4、行動（Action）

智能體基於規劃和記憶來執行具體的行動，這可能包括與外部世界互動，或者通過工具的調用來完成一個動作，具體來說就是一個輸入（Input）任務的最終輸出（Output）。

如：實體 AI 機器人完成一個 “鼓掌” 動作的任務；又或者軟件系統中，由 AI 助手創建一個待辦任務。

▲Cyberdog2 完成 “鼓掌” 任務

四、AI Agent 示例

爲了更好地理解 AI Agent，筆者這裏舉個生活中簡單的例子：假設您需要與朋友在附近喫飯，需要 AI Agent 幫你預訂餐廳。

Agent 會先對您提出的任務進行拆解，如：

第 1 步（獲取當前所在方位）

推理 1：當前知識不足以回答這個問題，需要知道當前所在方位以及附近的餐廳
行動 1：使用地圖工具（Tools）獲取當前所在方位
結果 1：得出附近餐廳列表

第 2 步（確定匹配餐廳）

推理 2：確定預訂的餐廳，需要知道您的飲食偏好以及其餘細節（如：喫飯時間、人數）
行動 2：從記憶（Memory）中獲取您的飲食偏好、人數、時間等信息
結果 2：確定最匹配的餐廳

第 3 步（預訂餐廳）

推理 3：基於結果 2，評估當前所擁有的工具能否完成餐廳預訂
行動 3：使用相關插件工具，進行餐廳預訂（Aciton）
結果 3：任務完成

五、Agent 與 To B 產品應用場景

對 AI Agent 有了初步的瞭解後，我們可以把這套框架思想代入到 To B 產品的功能 AI 化設計中。比如：通過 AI Agent 完成搭建報表、創建任務、生成工作報告等工作。這裏拿 【生成工作報告】 爲例子，分享一下筆者的思路：

在 CRM 系統中，寫工作報告（週報、月報）是一個週期性的高頻工作。這個工作可分爲幾個階段：

1、手動階段

剛開始，員工填寫工作報告需要以下好幾步：

第一步：通過各種方式整理彙報週期內，聯繫了哪些客戶；商機都推進到什麼階段；哪些客戶完成轉化成交，成交業績多少等行爲信息
第二步：把零散的行爲信息，重新梳理，轉化爲彙報格式（如：內容 + 當前進度 + 預期等格式）
第三步：選擇彙報人，提交報告

這個過程中，員工把大部分的時間都耗在了收集與整理行爲信息的工作上。

▲手動階段寫工作週報

2、Copilot 階段

由於引入了 LLM，員工在寫工作報告的時候，可以省去了整理零散信息，撰寫報告的一步。

此時只需要把報告要求發給 LLM，讓 LLM 基於零散的數據信息進行加工整理，最後自動撰寫工作報告。當提問中不含有彙報人等信息，LLM 將通過多輪會話的方式進行獲取。

3、Agent 階段

到了 Agent 的階段，我們不妨以智能體的基礎框架出發，構建 【工作報告智能體】 的框架。

規劃（Planning），編寫 Prompt 的時候，讓 LLM 對 “生成工作報告” 任務進行拆解，分爲了獲取基礎數據—整理輸出報告—選擇彙報人—執行提交四步。
工具（Tools），受限於 LLM 無法獲取私有化知識的問題，通過 RAG 技術，接入數據中心 API 來獲取客戶聯繫、流轉、成交等明細數據；以及接入工作報告應用 API 來獲取 “填寫” 與“提交”的業務執行權限。
記憶（Memory），把員工以往的彙報內容進行分析，提煉出彙報文案風格、內容格式、彙報週期、彙報人等特徵信息，作爲長記憶進行存儲，供撰寫報告時使用。
行動（Action），基於工作報告應用開放的執行權限，待 LLM 成功生成工作報告後，自動執行提交操作，完成任務。

▲工作報告智能體框架

通過這個方式，員工只需要給 Agent 下達寫工作報告的任務（設置定時任務或手動觸發），Agent 將會自動完成數據採集、報告撰寫、選擇彙報人、報告提交操作。

▲工作報告智能體 demo

六、總結

如果把 “To B 軟件的 AI 化” 類比於汽車自動駕駛技術的發展。23 年 LLM 的推出，相當於 To B 軟件應用的自動化程度由 L1 階段升級到 L2 階段；AI Agent 的到來，讓自動化程度得到了進一步的提升，由 L2 階段升級到 L4 階段。

▲人類與 AI 協同的三種模式

隨着 AI Agent 自主性的進一步加強，將會逐漸替代越來越多的重複性工作。但從 To B 軟件的角度來看，AI 最終解決的核心問題仍然不變—「降本增效」。

因此，作爲產品經理，在提升自己 AI 能力的同時，還要持續提高自己對於產品所在行業的業務理解能力。畢竟 在沒有找到核心場景前，就算配套再先進的工具也帶來不了任何價值。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/pSDOoCAV_bDwqLaIXapIpg