什麼是 AI 智能體？如何一步步構建屬於你自己的智能體？

什麼是 AI 智能體？

下一件大事？Gartner 認爲：AI 智能體（AI Agents）將是未來的關鍵技術。OpenAI、Nvidia 和 Microsoft 正在大力投入，甚至像 Salesforce 這樣在 AI 領域一向低調的公司，也已悄然下注。

而毫無疑問，這項技術目前正迅猛崛起。

那麼，這一趨勢背後真正的是什麼？理解智能體（Agents）的關鍵在於：自主性（Agency）。

不同於傳統的生成式 AI 系統，智能體不僅僅是對用戶輸入做出迴應。它們能夠處理一個完整且複雜的問題——例如，一起保險理賠案件——從頭到尾自動完成。這意味着它們可以理解理賠中的文本、圖片與 PDF；從客戶數據庫中檢索相關信息；將案例與保險條款進行比對；主動向客戶提問並等待迴應——哪怕這個過程需要幾天；且不會遺忘上下文。

最重要的是：這些智能體可以自主完成所有操作，無需人類檢查其處理過程是否正確。

咖啡機與咖啡師的比喻

與當前市面上的 AI 系統以及各類 “協助型 Copilot” 不同，AI 智能體實際上更像是一位真正的 “員工”，而不是僅僅幫助員工完成部分工作的工具。它們展現出在流程自動化方面的巨大潛力。

想象一下 —— 一個能夠完成複雜、多步驟任務的 AI，原本這些任務需要一個人類員工甚至是一個完整部門來完成：

• 策劃、設計、執行、評估並優化一場市場營銷活動 • 在物流中定位遺失的貨物，通過與承運商、客戶和倉庫溝通協調——若最終無法找回，還能向責任方提出索賠 • 每日檢索商標數據庫，判斷是否有新註冊商標與自己的商標存在衝突，並立即提出異議 • 收集 ESG 報告所需數據，包括詢問員工、驗證數據並最終撰寫完整報告

目前，AI 模型可以協助處理某些環節，例如生成營銷內容、分析電子郵件等，但它們尚不具備執行完整業務流程的能力。而 AI 智能體（AI Agent）可以做到這一點 —— 它不僅 “協助”，還可以 “主導執行”。

雖然傳統的 AI 模型就像一臺頂級的意式咖啡機，但基於智能體的 AI，更像是一位咖啡師（Barista）。咖啡機能煮出好咖啡；而咖啡師不僅會煮咖啡，還能：歡迎客人，記下訂單，端上咖啡，收銀結賬，清洗杯具，晚上關店。即便是世界上最好的咖啡機，也無法獨立經營一家咖啡館，但咖啡師可以。

爲什麼 AI 智能體和咖啡師能做到這些？因爲他們擅長掌握複雜工作的各個子流程，並能夠自主決定下一步要做什麼。

他們能與人交流，比如：

• 向顧客提問，以獲取更多信息（需要牛奶還是燕麥奶？）• 判斷求助對象，在遇到問題時知道該找誰（咖啡豆沒了 => 找老闆；咖啡機罷工 => 聯繫售後服務）

這正是 AI 智能體的優勢，它不僅能執行任務，還能理解場景、做出判斷、溝通協調、靈活應變 —— 像一個真正的 “數字員工”。

如何動手構建一個 AI 智能體？

我們將圍繞上方圖示中的保險業務流程，設計一個智能體系統。該智能體應能從理賠申請的發起一直處理到賠付完成。

⚠️ 在這裏我們主要討論業務架構和流程設計。由於涉及編碼的部分非常龐大，本文暫不深入編程實現細節。

1. 分類 & 將任務分配到處理路徑中

我們的工作流從客戶向保險公司發送一條理賠消息開始，這通常是有關房屋保險的申請內容。

那麼，智能體該怎麼做？它首先要分析消息內容，判斷客戶的訴求是什麼。

基於這一分類判斷，系統會啓動相應的處理路徑（processing lane）。這一步往往不僅僅是函數調用 [1]，而是涉及到對整個流程的基本決策（例如屬於哪一類理賠），後續觸發多個獨立的處理步驟。這就是智能體在流程第一步的職責，理解需求 → 分類判斷 → 進入具體處理流。

2. 數據提取

下一步是數據提取。智能體的主要任務之一，就是將非結構化數據轉化爲結構化數據，以便流程更加系統化、安全且可控。

分類是將文本歸入預定義的某一類；而提取，則是從文本中讀取並解析具體的數據內容。然而，語言模型並不會直接 “複製” 輸入中的數據，而是生成一條響應內容。這使得它能進行數據格式化，比如將電話號碼從 ‘(718) 123–45678’ 轉換爲 ‘+1 718 123 45678’。

數據提取並不僅限於郵件正文中的文本內容，還可以包含圖像、PDF 或其他文檔中的數據。爲了完成這些任務，我們通常會結合多種模型使用：包括 LLM（大語言模型）、圖像識別模型、OCR（光學字符識別）等。上文描述的流程其實是高度簡化版。在現實中，我們通常會將圖片發送給 OCR 系統，讓它從掃描的發票或表單中提取文本；同時，我們也常常在分析前對附件進行分類處理。

爲確保輸出爲結構化數據，我們強制要求模型的輸出格式爲 JSON。

以下是郵件輸入的示例 —— 一段非結構化數據：

你好，
我想要報案並申請賠償。
昨天，我9歲的兒子Rajad在和朋友玩耍時，把足球踢到了客廳的吊燈上，吊燈從掛鉤上掉落摔在地板上摔碎了（它是玻璃制的）。
幸運的是沒有人受傷，但吊燈已經徹底損壞，無法修復。
附件中包含一張發票和幾張損壞吊燈的圖片。
DeepakJamal
合同號：HC12-223873923
123MainStreet
10008紐約市
(718)12345678

模型輸出—JSON 格式的結構化數據

{
"name":"Deepak",
"surname":"Jamal",
"address":"123 Main Street, 10008 New York City, NY",
"phone":"+1 718 123 45678",
"contract_no":"HC12-223873923",
"claim_description":"Yesterday [Dec-8, 2024], while playing with a friend, my 9-year-old son Rajad kicked a soccer ball against the chandelier in the living room, which then broke from its holder and fell onto the floor and shattered (it was made of glass).\nLuckily no one is injured, but the chandelier is damaged beyond repair.\n"
}

3. 調用外部服務，保持上下文持久化

許多生成式 AI 系統可以直接回答問題——有時是基於預訓練數據，有時是通過微調，或在特定文檔上使用 RAG（檢索增強生成）技術。但這對智能體來說遠遠不夠。幾乎所有具備一定能力的 AI 智能體都必須訪問企業內部或外部的數據源，如數據庫等系統。

此外，爲了使流程的上下文在當前會話之外仍然持續可用，智能體必須將數據寫入系統或數據庫。以我們的保險理賠智能體爲例，它會根據合同號在客戶數據庫中查詢客戶信息，並將本次理賠請求的狀態寫入問題追蹤系統（issue tracking system）。更進一步的是 —— 智能體具有 “自主性（agency）”，它還可以主動向外部（例如客戶）請求缺失的數據。

4. 評估、RAG、推理與置信度控制

每一項行政工作最核心的部分，其實都是在依據規則解釋和處理輸入的個案。而 AI 在這一點上表現得尤其出色。由於我們在調用模型時無法提供所有上下文信息（例如保險條款或服務協議內容），我們通常會使用**向量數據庫（vector database）**來檢索相關內容片段，這種技術被稱爲 RAG（檢索增強生成）。

我們會在提示中引導 AI 先 “自言自語” 推理，再做出判斷。這種 “先思考、後回答” 的方式可以顯著提升回答質量—— 這正是我們從三年級數學課上就學會的技能。模型的推理過程，還可以被用於多種顯性和隱性的場景，例如：

• 向客戶提供理由，說明爲什麼得出這樣的答覆 • 幫助提示工程師和數據科學家排查模型錯誤的原因 • 用於評估模型是否真的 “理解了” 問題，還是僅僅“碰巧猜對了”

🔍 我們還會準備一份關於推理與提示工程技巧的小抄 [2]，方便參考使用。

置信度評估是最大化系統精度的核心手段。如果模型可以估算自己的回答置信度，我們就能據此制定不同的系統運行策略。

📌 提示工程師注意：這通常需要爲不同置信度水平提供優秀的 few-shot 學習示例。

我們可以設置一個 “置信度閾值”：

• 當低於該閾值時 → 自動將任務轉交給人工客服 • 當高於該閾值時 → 系統自動處理該任務

這樣可以實現靈活調節：

• 置信度閾值設得高：更安全，錯誤率低，但需更多人工處理 • 置信度閾值設得低：自動化程度高，但潛在錯誤風險增加

總結

哇哦！如果你剛纔實現了上面所提到的 2 到 3 個步驟，那麼你就已經構建出了一個 AI 智能體。我在前文中只列出了這些智能體系統的核心組成部分，其餘部分你一定也可以輕鬆想象得到。你可以選擇使用以下框架來實現它們： CrewAI， LangGraph， LangFlow，或其他類似的智能體編排工具。當然，你也完全可以只用純 Python 實現整個流程。

令人驚訝的是，這樣的系統可以自動化理賠部門 70%–90% 的工作量。而這一點，是傳統的、非智能體型的生成式 AI 系統根本無法做到的。兩年前，我從未想過這個願景能來得這麼快、這麼現實。

👉 AI 智能體，簡而言之：

一個能思考、有記憶、可調用工具，並能獨立完成任務的 “數字員工”。