一文了解 AI Agent(智能體)
一、前言
AI Agent(人工智能代理)是上半年一個火熱的話題。筆者最近對相關概念進行了學習與研究,期間也通過智能體開發平臺成功搭建了一些有趣的 Agent。所以計劃通過本篇文章,跟大家分享筆者對於 AI Agent 的些許理解。
二、AI Agent 是什麼
AI Agent,即人工智能體,是一種能夠感知環境、進行自主理解、決策和執行動作的智能實體。簡單理解,是一種基於大語言模型,能夠通過獨立思考、調用工具來逐步完成給定目標的計算機程序。
可能大家會疑問,AI Agent 又和 LLM、RAG 有什麼區別?他們之間的關係又是怎樣的?
我們不妨,先通過對比 LLM、RAG 的用途,來更好地理解 AI Agent。
1、LLM
LLM(大語言模型)是基於海量文本數據訓練的深度學習模型,能夠生成自然語言文本、深入理解文本含義,並處理各種自然語言任務,如文本摘要、問答、翻譯等。簡單理解是語言的邏輯推理,如我們常見的 Chat GPT、文心一言、通義千問等
但由於 LLM 的知識是提早訓練好的內容,時效性不強;加上用於訓練的知識一般來源於公域的標準化知識,存在侷限性。
爲了解決 LLM 知識有限的問題,需要把外部的知識提供給 LLM 進行學習,讓它理解之後表達出來,這時候就需要用到 RAG 技術。
2、RAG
RAG(檢索增強生成)是一種結合了外部信息檢索與大型語言模型生成能力的技術,用於處理複雜的信息查詢和生成任務。在大模型時代,RAG 通過加入外部數據(如本地知識庫、實時數據等)來增強 AI 模型的檢索和生成能力,提高信息查詢和生成質量。比如:文心一言的插件服務,支持把實時又或者私有化知識提供給 LLM。
總結而言,RAG 是一種技術,作用於 LLM,目的是增加輸出結果的準確性。
3、AI Agent 與 LLM、RAG 的關係
如果把 AI Agent 理解爲一個智能實體的話,LLM 充當着智能體的 “大腦” 角色。
AI Agent 會利用 LLM 的推理能力,把問題進行拆解,形成一個一個的小問題,並定義好這些小問題之間的前後關係,先處理哪個,再處理哪個。然後按照順序,調用 LLM 、 RAG 或者外部工具,來解決每一個小問題,直至解決最初的問題。
三、AI Agent 的基礎架構
上文提及到,LLM 充當着智能體的大腦,但僅僅有 “大腦” 並不能完成複雜任務的執行。作爲智能體,還需要如 “神經感官系統” 以及 “肢體” 的參與,這時候引入 AI Agent 的基礎架構。
▲由 LLM 驅動的智能體系統
如上圖所示,Agent 由 4 個關鍵部分組成,分別是:規劃(Planning)、記憶(Memory)、工具(Tools)、行動(Action)
1、規劃(Planning)
“規劃” 充當着智能體的 “思維模式”。如果用人類來類比,當接到一個任務時,我們的思維模式可能會像下面這樣:
-
首先會思考怎樣完成這個任務。
-
然後會把任務拆解成多個子任務分步進行。
-
接着評估現有工具能夠幫助我們高效達成目的。
-
在執行任務的時候,我們會對執行過程進行反思和完善,以持續調整策略。
-
執行過程中思考任務何時可以終止。
因此,我們可以通過 LLM 提示工程(Prompt),爲智能體賦予這樣的思維模式。比如:在編寫 Prompt 的時候運用 ReAct、CoT 等推理模式,引導 LLM 對複雜的任務進行拆解,拆分爲多個步驟,一步步思考和解決,從而使輸出的結果更加準確。
2、記憶(Memory)
記憶是什麼?當我們在思考這個問題,其實人類的大腦已經在使用記憶。記憶是大腦存儲、保留和回憶信息的能力。
仿照人類的記憶機制,智能體分爲了兩種記憶機制
-
短期記憶,如:單次會話的上下文記憶會被短暫的儲存,以用於多輪會話,在任務完結後被清空。
-
長期記憶,長時間被保留的信息,如:用戶的特徵信息、業務信息,通常用向量數據庫來存儲和快速檢索。
3、工具(Tools)
智能體具備感知環境與決策執行的能力,這離不開 “神經感官系統” 的幫助,“工具”便充當着這個角色。智能體通過工具從周邊環境獲取到信息(感知),經過 LLM 處理後再使用工具完成任務(執行)。
所以我們需要爲智能體配備各種工具以及賦予它使用工具的能力。比如:
-
通過調用軟件系統不同應用模塊的 API,獲取到指定的業務信息,以及執行業務的操作權限。
-
通過調用外部的插件工具,來獲取原本 LLM 並不具備的能力,如:文心的 Chat files 插件獲取文檔解析能力;釦子的 ByteArtist 插件獲取文生圖能力等。
這裏便運用到了上文提及的 RAG 相關技術
▲釦子平臺的插件商城
4、行動(Action)
智能體基於規劃和記憶來執行具體的行動,這可能包括與外部世界互動,或者通過工具的調用來完成一個動作,具體來說就是一個輸入(Input)任務的最終輸出(Output)。
如:實體 AI 機器人完成一個 “鼓掌” 動作的任務;又或者軟件系統中,由 AI 助手創建一個待辦任務。
▲Cyberdog2 完成 “鼓掌” 任務
四、AI Agent 示例
爲了更好地理解 AI Agent,筆者這裏舉個生活中簡單的例子:假設您需要與朋友在附近喫飯,需要 AI Agent 幫你預訂餐廳。
Agent 會先對您提出的任務進行拆解,如:
第 1 步(獲取當前所在方位)
-
推理 1:當前知識不足以回答這個問題,需要知道當前所在方位以及附近的餐廳
-
行動 1:使用地圖工具(Tools)獲取當前所在方位
-
結果 1:得出附近餐廳列表
第 2 步(確定匹配餐廳)
-
推理 2:確定預訂的餐廳,需要知道您的飲食偏好以及其餘細節(如:喫飯時間、人數)
-
行動 2:從記憶(Memory)中獲取您的飲食偏好、人數、時間等信息
-
結果 2:確定最匹配的餐廳
第 3 步(預訂餐廳)
-
推理 3:基於結果 2,評估當前所擁有的工具能否完成餐廳預訂
-
行動 3:使用相關插件工具,進行餐廳預訂(Aciton)
-
結果 3:任務完成
五、Agent 與 To B 產品應用場景
對 AI Agent 有了初步的瞭解後,我們可以把這套框架思想代入到 To B 產品的功能 AI 化設計中。比如:通過 AI Agent 完成搭建報表、創建任務、生成工作報告等工作。這裏拿 【生成工作報告】 爲例子,分享一下筆者的思路:
在 CRM 系統中,寫工作報告(週報、月報)是一個週期性的高頻工作。這個工作可分爲幾個階段:
1、手動階段
剛開始,員工填寫工作報告需要以下好幾步:
-
第一步:通過各種方式整理彙報週期內,聯繫了哪些客戶;商機都推進到什麼階段;哪些客戶完成轉化成交,成交業績多少等行爲信息
-
第二步:把零散的行爲信息,重新梳理,轉化爲彙報格式(如:內容 + 當前進度 + 預期等格式)
-
第三步:選擇彙報人,提交報告
這個過程中,員工把大部分的時間都耗在了收集與整理行爲信息的工作上。
▲手動階段寫工作週報
2、Copilot 階段
由於引入了 LLM,員工在寫工作報告的時候,可以省去了整理零散信息,撰寫報告的一步。
此時只需要把報告要求發給 LLM,讓 LLM 基於零散的數據信息進行加工整理,最後自動撰寫工作報告。當提問中不含有彙報人等信息,LLM 將通過多輪會話的方式進行獲取。
3、Agent 階段
到了 Agent 的階段,我們不妨以智能體的基礎框架出發,構建 【工作報告智能體】 的框架。
-
規劃(Planning),編寫 Prompt 的時候,讓 LLM 對 “生成工作報告” 任務進行拆解,分爲了獲取基礎數據—整理輸出報告—選擇彙報人—執行提交四步。
-
工具(Tools),受限於 LLM 無法獲取私有化知識的問題,通過 RAG 技術,接入數據中心 API 來獲取客戶聯繫、流轉、成交等明細數據;以及接入工作報告應用 API 來獲取 “填寫” 與“提交”的業務執行權限。
-
記憶(Memory),把員工以往的彙報內容進行分析,提煉出彙報文案風格、內容格式、彙報週期、彙報人等特徵信息,作爲長記憶進行存儲,供撰寫報告時使用。
-
行動(Action),基於工作報告應用開放的執行權限,待 LLM 成功生成工作報告後,自動執行提交操作,完成任務。
▲工作報告智能體框架
通過這個方式,員工只需要給 Agent 下達寫工作報告的任務(設置定時任務或手動觸發),Agent 將會自動完成數據採集、報告撰寫、選擇彙報人、報告提交操作。
▲工作報告智能體 demo
六、總結
如果把 “To B 軟件的 AI 化” 類比於汽車自動駕駛技術的發展。23 年 LLM 的推出,相當於 To B 軟件應用的自動化程度由 L1 階段升級到 L2 階段;AI Agent 的到來,讓自動化程度得到了進一步的提升,由 L2 階段升級到 L4 階段。
▲人類與 AI 協同的三種模式
隨着 AI Agent 自主性的進一步加強,將會逐漸替代越來越多的重複性工作。但從 To B 軟件的角度來看,AI 最終解決的核心問題仍然不變—「降本增效」。
因此,作爲產品經理,在提升自己 AI 能力的同時,還要持續提高自己對於產品所在行業的業務理解能力。畢竟 在沒有找到核心場景前,就算配套再先進的工具也帶來不了任何價值。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/pSDOoCAV_bDwqLaIXapIpg