Agent 的五重境界
從 LLM 取得突破以來,技術社區對 agent 的探索從未停步,過去兩三年我們不斷見證各類 agent showcase 的出現,每次都引發熱烈討論,大家滿懷激情地認爲 agent 奇點已來,但後來又會失望,覺得離實際落地還遠,兩種聲音始終都會並存,這也符合技術發展的規律。今天之所以寫這篇文章是因爲確實看到 agent 已經發展到了一個階段性的 milestone,在這個節點上我們需要搞清楚自己今時今日身處何處,以及前方的路。
01
Agent 發展的五重境界
第一階段:工具型 agent 框架 (Tool-based Agent Frameworks)
工具型 agent 框架是在 ChatGPT 橫空出世後同時期出現的,當時 LLM 剛剛展現出強大的文本生成能力,但其應用仍侷限於純文本環境,prompt engineering 初步發展。爲了實現語言模型與外部工具的基礎連接機制,開發者們採用了預定義工具集、簡單決策樹、基本記憶管理實現了有限的自主性,代表性工作有 LangChain、BabyAGI、AutoGPT 早期版本等。
侷限:LLM 被限制在 “籠子” 裏,嚴重依賴人工定義的工具和流程,靈活性低。
第二階段:認知型 agent (Cognitive Agents)
認知型 agent 的發展伴隨着更強大語言模型如 GPT-4 的出現。這一階段的關鍵驅動因素包括:新一代 LLM 的推理、規劃和反思能力初見端倪,**思維鏈 (Chain-of-Thought) 技術取得初步突破,**使模型能夠展示詳細推理過程。開發者們通過適當設計的 prompt 和反饋循環,讓 LLM 展現出初步的語言模型可以展現出初步的規劃能力、反思機制、內部思維過程和自我修正。這個時期的典型代表工作有 ReAct 框架、Reflexion 系統、Inner Monologue 代理。
侷限:環境交互能力有限,主要在思維層面運作,**推理深度受限,**複雜推理鏈中仍然存在 "走神" 和邏輯斷裂問題,**自我修正能力不穩定難以維持長期目標,**在延伸任務中容易偏離原始目標。
第三階段:環境交互 agent (Environment-Interacting Agents)
環境交互 agent 的發展始於 2023 年中,這一時期的關鍵技術驅動包括**多模態模型的突破,**GPT-4V 讓 agent 能夠 "看見" 環境了,瀏覽器自動化技術提供了與網絡環境交互的標準化接口,開發者們開始嘗試讓 agent 去做一些界面理解、環境導航、執行復雜操作序列等任務。這個時期的代表工作有 AutoGPT 高級版、BrowserGPT、Adept ACT-1、Open Interpreter 等。
侷限:通常專注於特定領域,缺乏跨域集成能力。
第四階段:自主 agent (Autonomous Multimodal Agents)
自主 agent 的發展始於 2024 年初,這一階段的關鍵驅動因素包括**多模態大模型的普及,長上下文窗口的突破,**支持數十萬甚至數百萬 token 的上下文窗口長度,agent 開發工具和平臺趨於成熟。開發者們開始探索真正具有自主性的 agent 系統,能夠實現高級規劃架構、動態環境適應、長期目標維持和自適應學習。這個時期的代表工作有 Devin、OpenHands 等。
侷限:資源消耗大,穩定性和一致性挑戰。
第五階段:端到端通用 agent (End-to-End General Agents)
在發佈 Deep Research 後 OpenAI 團隊在接受採訪時提到 Deep Research 是 o3 模型的強化微調版本,它是一個端到端 agent。o1 之後大模型行業全面步入 reasoning model 時代,**基礎模型能力持續提升,**越來越強大的基礎模型內化了更多能力,agent 可以無需專門框架支持,完全自主地規劃和執行,能持續學習和自我改進能力,能夠自主設定和調整目標,它最終將成爲 AGI 的實際應用形式。
02
再談 agent 四要素
2023 年,前 OpenAI 應用研究主管 Lilian Weng 曾在其博文中提出 agent 定義和四大核心要素,時間來到 2025 年,AI 發展日新月異,四大要素均發生了很大的變化,讓我們一起來看看。
- Planning
Planning 目前是四要素中發展最快的能力,o1、R1 的突破讓大語言模型展現出內生的思維鏈(Chain-of-Thought)能力,可以針對複雜任務生成多步流程,不依賴於提示工程和模板,以及手工編寫規則或有限的決策樹。
未來的技術演進方向:1. 自適應與動態規劃:未來 agent 將朝着能根據環境和任務變化自動進行實時重規劃的方向演進,具備自我糾錯和動態調整策略的能力。2. 層次化 Planning:構建多層次規劃結構,整合微觀決策和宏觀規劃,實現全局與局部的協同優化。
- Memory
對大模型在 Memory 方面的研究主要聚焦於 RAG 和長上下文窗口技術,長上下文在過去兩三年裏已經取得了顯著的進展,不過相對於多模態、agent 以及 reasoning 等高階能力的迫切需求,目前的窗口長度還是遠遠不夠,不然就不會出現大模型在解決長邏輯鏈深度推理和視頻生成一致性上的捉襟見肘,肉眼可見各大模型廠商在 Memory 領域的投入勢必會持續加碼。
同時,市場上也出現了一些專注於 Memory 中間件的創業公司,如 Mem0、Letta 等,試圖爲解決長期記憶提供一些解決方案。未來我們仍需解決長期記憶內嵌與持久化、動態記憶管理與智能檢索,以及多模態記憶整合等問題,最佳路徑仍是通過模型內化來解決。
- Tool use & Action
當前的 agent 系統通常預先集成了一組工具或 API,能根據任務需求調用特定外部服務來完成搜索、數據查詢、翻譯等任務,還不能夠根據任務需求動態選擇和靈活組合工具。
衡量模型理解用戶意圖調用工具執行命令能力的測試集叫 TAU-bench**,**用於評估 AI Agent 在現實世界場景中性能和可靠性的基準測試。TAU-bench 設計了兩個領域場景 TAU-bench(Airline),模擬用戶在航空業務場景下進行航班查詢、預訂、改簽、退票、機場服務等操作**,和 TAU-bench(Retail),**模擬在零售場景中進行購物諮詢、商品推薦、訂單修改、退貨換貨等操作。目前 agentic 能力最強的 Claude 3.7 在零售領域問題解決率爲 81%,航空領域只有 58%,航空領域一些 case 涉及非常多的查詢、匹配航班信息、金額計算、行李 / 支付 / 退換多步操作,難度還是很大的。另外這個測試集還定義了一個 pass^k 的指標,即多次穩定通過的概率,可以看到每個模型的穩定性都不是很好,所以並**不能期望它在複雜的場景、多輪交互中很穩定地理解意圖做出正確的行動,這是現狀。**
在 agent 四要素中,tool use 和 take action 能力發展確實滯後其他兩個要素,讓模型發展腦子更容易,讓模型長出手和腳更難。大模型的能力發展次序與我們人類是相反的,我們出生後先發展自己的身體,學會走路,學會用手操作,再識字學知識,再發展高層邏輯思維能力。模型是先學知識,然後發展思維能力,然後再學會 computer use,最後纔是物理世界的具身。
未來的技術演進方向:從目前看模型的 tool use 和 take action 能力都是離散和獨立的調用,也就是說任務決策和具體執行往往是分開的過程,只有 OpenAI Deep Research 是連續動態決策,它會根據每一次搜索結果實時調整下一次搜索方向,它是邊搜邊想、邊想邊搜,不斷接近目標,直至問題解決,這是端到端 RL 帶來的好處。更進一步地,我們希望模型未來能夠根據環境反饋實時調整行動策略,能夠自主學習和迭代工具調用,甚至能發現並整合新的外部工具接口。
03
Agent 構建範式的變化
從 LLM 取得突破以來,我們就從未停止過對 agent 的探索,我們希望模型不只是 “缸中之腦”,而能成爲一個完全自主的系統,在較長時間內獨立運行,並能完成複雜任務。**在 agent 的五個發展階段中,agent 的每一次重要進展都是由模型能力迭代帶來的。**去年 12 月是一個範式變化的開端,o1 發佈後 OpenAI 研究科學家 Noam Brown 的演講視頻流出,他談到 workflow 是 all structure-based things,它只有短期價值沒有長期價值,最終會被模型 inherent capabilities 取代,我們要做的就是讓模型像人一樣思考,to think freely!無獨有偶,Anthropic 也發佈了一篇關於如何建立有效 Agent 的博客,提到 workflow 和 agent 是兩種不同的架構,workflow 是通過預定義的代碼路徑編排 LLM 和工具的系統,而 agent 是 LLM 動態指導自己的過程和工具使用的系統,保持對它們如何完成任務的控制。我們不需要構建 agent 系統,因爲這些抽象層可能會掩蓋底層的提示和響應,建議開發人員從直接使用 LLM API 開始。這些都告訴我們,模型能力已經發展到我們可以通過激發它的內在能力去解決實際問題的時候了。其實 reasoning model 的推理能力就是 RL 激發出來的,pre-train 把知識學進去,post-train 把能力激發出來,現在做應用也是把模型能力激發出來。這條路走到底就成了端到端,OpenAI Deep Research 就是 o3 做 reinforcement fine-tuning 得到的模型,它也是 agent,它也是產品。
今天 reasoning model 的正確使用方式已經不再是藉助哪些 prompt 模板了,你不必再 step by step 地教它了,你應該描述清楚任務和目標,讓模型自己去 thinking 去輸出 CoT,也就是說你定義好任務的起點和終點,中間的 trajectory 讓模型自己去搜索。當然這個過程不會那麼容易,它會翻車,它會天馬行空,它會浪費一堆 token 最後完不成任務,這個過程會令你沮喪和氣餒,然後你又想重新去用回那些框架和模板,就像一個不開竅的熊孩子,怎麼也教不會,不如直接把正確答案告訴他讓他背下來算了。但是我想說請多一些耐心,don't teach, incentivize,你可以給它一些引導,或者在中間節點給一些 reward,或者在關鍵步驟增加 verifier,最終它會既達成你給的 objective(目標),又保持相當的 generalization(泛化性)。
當然有人會說那這樣的話,能力都是模型的,應用層就沒有壁壘了呀。你把模型的能力 adapt 到你的場景裏本身就是壁壘呀,不信你試試,現在 reasoning model 推理能力都這麼強了,你不在 chat 對話框裏使用,你直接把它應用到你的場景裏做 agent,你不用 workflow、不用 structure,就釋放模型本身的智能,你看看它能不能完全滿足你的要求。如果未來有一天具備博士能力的模型 API 唾手可得且價格便宜,你覺得你就有能力用好它了嗎?如果你招了個博士進來,你也要花很長時間跟他磨合,跟他 align 你的目標、願景、價值觀,才能把他的能力爲我所用。畢竟我們的工作場景不是數學題,沒有標準答案,你的 guideline 怎麼給,你的 reward 怎麼給都是技術活,你還得經常跟它對齊,防止它投機取巧或者跟你目標不一致。你覺得培養一個聽話出活的骨幹員工容易嗎?那你憑什麼認爲駕馭一個模型就容易呢?
04
2025 我們在期待什麼
最近引發大家熱烈關注的 Menus,他們的團隊一直在提這個理念:Less structure, more intelligence,這是一種非常美的技術哲學。Monica 團隊最開始先從 chrome 瀏覽器插件開始,在 ChatGPT 爆火後在 web 端獲得了流量,之後發展成產品矩陣,做了一系列套殼工具,在這個過程中積累了寶貴的數據,之後又嘗試了 AI 瀏覽器,但因覺得不是 AI 原生的交互方式而放棄,最終成功轉型 agent 產品。有人說他們的產品是縫合怪,但我覺得最重要的是他們用 Qwen post-train 了一些小模型,恰好彌補了大模型的一部分能力不足,使得 agent 在執行端效果上了一個臺階。用大模型 + 小模型以及 multi-agent 的方式已經有很多團隊在做,但單純用腳手架或封裝的方式提升有限,最終證明 agent 的能力瓶頸還是模型。Monica 團隊能做 post-train 的工作跟之前的數據積累是分不開的,信息搜索、數據整理、圖表生成、coding agent 都是之前做過的工具,browse use 是做 AI 瀏覽器時積累下來的功能,如今也都絲滑地整合進了現在的產品裏。沒有一步路是白走,每一步都算數,所以肖弘說 “殼有殼的價值”。他們用自己的小模型補足了大模型目前在 tool use 和 action 方面尚存的缺陷,相當於把下一代大模型的一部分能力提前給到我們了,也讓我們看到了模型進化的方向,我們有理由相信當大模型將這些能力進一步內化的時候,agent 未來可期。
前段時間 Jina AI 寫了一篇文章
《DeepSearch 與 DeepResearch 的設計和實現》,且 Jina DeepSearch 前後端均已開源,做技術的同學應該好好看看,文章評論中有這樣一段話值得細品。如果你是 OpenAI,你當然可以花錢請專家給你標註數據,然後端到端做微調,如果你沒有那麼多錢,你也可以手搓產品,把它當成數據標註器。如果未來模型再進步,那這些 positive practice 和 failure case 數據就是 reward 呀。
也許有人會說如果我不是 deepseek 團隊,訓不了前沿模型,我也不是 Monica、Jina 團隊,做不出好產品,那我該怎麼辦呢?那你就儘可能地把你的業務數字化、在線化,收集 experience data 存下來,如果你相信技術的力量,相信模型迭代的速度,那你應該相信遲早有一天它們會有用,那時你只管給 reward,剩下的交給模型。關於什麼是 experience data,“強化學習之父”** Richard S. Sutton,也是《A Bitter Lesson》的作者,在演講中有一段話,我貼在最後,希望對你有所啓發:**
Data drives AI. Experience is the ultimate data.
Experience comes from the ordinary operation of the AI; It is "free" data; It enables autonomous learning that scales with computation.
If we can learn and plan from experience, then the whole agent will become grounded and scalable. This would be super-powerful and revolutionize AI.
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/dbMslr-sGrK2VASAN_nwXg