一文了解 AI Agent(智能體)

一、前言

AI Agent(人工智能代理)是上半年一個火熱的話題。筆者最近對相關概念進行了學習與研究,期間也通過智能體開發平臺成功搭建了一些有趣的 Agent。所以計劃通過本篇文章,跟大家分享筆者對於 AI Agent 的些許理解。

二、AI Agent 是什麼

AI Agent,即人工智能體,是一種能夠感知環境、進行自主理解、決策和執行動作的智能實體。簡單理解,是一種基於大語言模型,能夠通過獨立思考、調用工具來逐步完成給定目標的計算機程序。

可能大家會疑問,AI Agent 又和 LLM、RAG 有什麼區別?他們之間的關係又是怎樣的?

我們不妨,先通過對比 LLM、RAG 的用途,來更好地理解 AI Agent。

1、LLM

LLM(大語言模型)是基於海量文本數據訓練的深度學習模型,能夠生成自然語言文本、深入理解文本含義,並處理各種自然語言任務,如文本摘要、問答、翻譯等。簡單理解是語言的邏輯推理,如我們常見的 Chat GPT、文心一言、通義千問等

但由於 LLM 的知識是提早訓練好的內容,時效性不強;加上用於訓練的知識一般來源於公域的標準化知識,存在侷限性。

爲了解決 LLM 知識有限的問題,需要把外部的知識提供給 LLM 進行學習,讓它理解之後表達出來,這時候就需要用到 RAG 技術。

2、RAG

RAG(檢索增強生成)是一種結合了外部信息檢索與大型語言模型生成能力的技術,用於處理複雜的信息查詢和生成任務。在大模型時代,RAG 通過加入外部數據(如本地知識庫、實時數據等)來增強 AI 模型的檢索和生成能力,提高信息查詢和生成質量。比如:文心一言的插件服務,支持把實時又或者私有化知識提供給 LLM。

總結而言,RAG 是一種技術,作用於 LLM,目的是增加輸出結果的準確性。

3、AI Agent 與 LLM、RAG 的關係

如果把 AI Agent 理解爲一個智能實體的話,LLM 充當着智能體的 “大腦” 角色

AI Agent 會利用 LLM 的推理能力,把問題進行拆解,形成一個一個的小問題,並定義好這些小問題之間的前後關係,先處理哪個,再處理哪個。然後按照順序,調用 LLM 、 RAG 或者外部工具,來解決每一個小問題,直至解決最初的問題。

三、AI Agent 的基礎架構

上文提及到,LLM 充當着智能體的大腦,但僅僅有 “大腦” 並不能完成複雜任務的執行。作爲智能體,還需要如 “神經感官系統” 以及 “肢體” 的參與,這時候引入 AI Agent 的基礎架構。

▲由 LLM 驅動的智能體系統

如上圖所示,Agent 由 4 個關鍵部分組成,分別是:規劃(Planning)、記憶(Memory)、工具(Tools)、行動(Action)

1、規劃(Planning)

“規劃” 充當着智能體的 “思維模式”。如果用人類來類比,當接到一個任務時,我們的思維模式可能會像下面這樣:

因此,我們可以通過 LLM 提示工程(Prompt),爲智能體賦予這樣的思維模式。比如:在編寫 Prompt 的時候運用 ReAct、CoT 等推理模式,引導 LLM 對複雜的任務進行拆解,拆分爲多個步驟,一步步思考和解決,從而使輸出的結果更加準確

2、記憶(Memory)

記憶是什麼?當我們在思考這個問題,其實人類的大腦已經在使用記憶。記憶是大腦存儲、保留和回憶信息的能力。

仿照人類的記憶機制,智能體分爲了兩種記憶機制

3、工具(Tools)

智能體具備感知環境與決策執行的能力,這離不開 “神經感官系統” 的幫助,“工具”便充當着這個角色。智能體通過工具從周邊環境獲取到信息(感知),經過 LLM 處理後再使用工具完成任務(執行)

所以我們需要爲智能體配備各種工具以及賦予它使用工具的能力。比如:

這裏便運用到了上文提及的 RAG 相關技術

▲釦子平臺的插件商城

4、行動(Action)

智能體基於規劃和記憶來執行具體的行動,這可能包括與外部世界互動,或者通過工具的調用來完成一個動作,具體來說就是一個輸入(Input)任務的最終輸出(Output)

如:實體 AI 機器人完成一個 “鼓掌” 動作的任務;又或者軟件系統中,由 AI 助手創建一個待辦任務。

▲Cyberdog2 完成 “鼓掌” 任務

四、AI Agent 示例

爲了更好地理解 AI Agent,筆者這裏舉個生活中簡單的例子:假設您需要與朋友在附近喫飯,需要 AI Agent 幫你預訂餐廳

Agent 會先對您提出的任務進行拆解,如:

第 1 步(獲取當前所在方位)

第 2 步(確定匹配餐廳)

第 3 步(預訂餐廳)

五、Agent 與 To B 產品應用場景

對 AI Agent 有了初步的瞭解後,我們可以把這套框架思想代入到 To B 產品的功能 AI 化設計中。比如:通過 AI Agent 完成搭建報表、創建任務、生成工作報告等工作。這裏拿 【生成工作報告】 爲例子,分享一下筆者的思路:

在 CRM 系統中,寫工作報告(週報、月報)是一個週期性的高頻工作。這個工作可分爲幾個階段:

1、手動階段

剛開始,員工填寫工作報告需要以下好幾步:

這個過程中,員工把大部分的時間都耗在了收集與整理行爲信息的工作上。

▲手動階段寫工作週報

2、Copilot 階段

由於引入了 LLM,員工在寫工作報告的時候,可以省去了整理零散信息,撰寫報告的一步。

此時只需要把報告要求發給 LLM,讓 LLM 基於零散的數據信息進行加工整理,最後自動撰寫工作報告。當提問中不含有彙報人等信息,LLM 將通過多輪會話的方式進行獲取。

3、Agent 階段

到了 Agent 的階段,我們不妨以智能體的基礎框架出發,構建 【工作報告智能體】 的框架。

▲工作報告智能體框架

通過這個方式,員工只需要給 Agent 下達寫工作報告的任務(設置定時任務或手動觸發),Agent 將會自動完成數據採集、報告撰寫、選擇彙報人、報告提交操作。

▲工作報告智能體 demo

六、總結

如果把 “To B 軟件的 AI 化” 類比於汽車自動駕駛技術的發展。23 年 LLM 的推出,相當於 To B 軟件應用的自動化程度由 L1 階段升級到 L2 階段;AI Agent 的到來,讓自動化程度得到了進一步的提升,由 L2 階段升級到 L4 階段。

▲人類與 AI 協同的三種模式

隨着 AI Agent 自主性的進一步加強,將會逐漸替代越來越多的重複性工作。但從 To B 軟件的角度來看,AI 最終解決的核心問題仍然不變—「降本增效」

因此,作爲產品經理,在提升自己 AI 能力的同時,還要持續提高自己對於產品所在行業的業務理解能力。畢竟 在沒有找到核心場景前,就算配套再先進的工具也帶來不了任何價值

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/pSDOoCAV_bDwqLaIXapIpg