AutoGPT 放棄使用向量數據庫？

AutoGPT 放棄使用向量數據庫，對某些人來說，可能會有些出乎意料。因爲從一開始，向量數據庫就被認爲可以幫助 AI 代理管理長期記憶。

是最初的想法發生了變化嗎？到底發生了哪些變化？讓我們從一些背景知識和 AutoGPT 的誕生說起。

AutoGPT 的願景

AutoGPT 在 3 月 30 日發佈時，引發了 ChatGPT 熱潮的巔峯。這是一個令人震撼的 AI 項目，激發了開發者對於像 ChatGPT 這樣的 LLM 如何用於創建能夠處理複雜任務的完全自主代理的想象力。

與其反覆提示模型，不如讓一個自主代理自主工作，規劃任務，將其分解爲較小的任務，並實現整個想法。

計劃非常宏偉。支持者們提出了一種基於 LLM 作爲推理引擎的複雜架構，其中包括一個專注於規劃、任務管理和優先級設置的獨立部分。這一理念包括一種以嵌入形式管理代理記憶的方式，以及一種在需要時存儲和檢索這些記憶的向量數據庫。

因此，當時似乎認爲向量數據庫是整個解決方案中重要的組成部分。其他 AGI 項目也採用了相同的方法，比如 BabyAGI。

然而，現在查看 AutoGPT 的文檔，我們可能會看到一個非常令人意外的警告消息：

事實證明，AutoGPT 最近進行了 “向量內存改造”，刪除了所有向量數據庫的實現，只保留了一些負責內存管理的類，而 JSON 文件成爲了存儲內存 / 嵌入的默認方式。

過度複雜的解決方案

Jina.AI 創始人肖涵博士曾在他的文章《Auto-GPT Unmasked: The Hype and Hard Truths of Its Production Pitfalls》中批評原始 AutoGPT 的選擇，將向量數據庫稱爲 “過度複雜的解決方案”。

這一觀察實際上非常簡單：

假設 LLM 需要 10 秒來生成一個完成的任務 —— 這是要存儲的單個新內存。當你積累到 100,000 個這樣的內存時，所需時間爲：100,000 * 10 秒 = 1,000,000 秒 ≈ 11.57 天。

現在，即使使用最簡單的蠻力算法，比如 Numpy 的點乘查詢，也可能只需要幾秒鐘就完成 —— 這種優化完全不值得！你根本不需要近似最近鄰搜索，更不用說向量數據庫了。

實際上，這正是我們現在在 AutoGPT 項目中看到的情況，嵌入是通過使用 np.dot 進行比較的：

關於重新引入向量數據庫，目前有一場正在進行的討論，作者提到這並不是他們目前的重點，尤其是他們並沒有看到任何附加價值。

過度設計

作爲工程師，我們常常會對炒作產生興趣。我們沉迷於學習新事物並構建複雜的、全能的解決方案。不出意外，AutoGPT 一開始就包括了向量數據庫。但隨着時間的推移，優秀的工程師開始關注真正重要的事情。炒作已經過去，現在需要爲實際用戶提供價值，這時複雜性就成爲了我們的敵人。

多代理協作

目前，另一個重要變革正在發生，即引入多個代理，它們高度專業化，以任務爲導向，具有自己的記憶和責任，彼此合作。

事實證明，採用一刀切的方法，讓一個全知全能的代理處理所有任務，表現並不出色。

以任務爲導向的代理可以獲得某個任務的示例，並通過上下文學習來更自然地執行任務。這也將限制提示的長度 —— 最近的研究表明，LLM 傾向於忽略提示中間的部分。

示例工作流程

多代理方法的一個示例可能是 GPT Pilot。它旨在創建多個代理，對應於軟件開發公司中已知的角色：產品負責人、程序員、DevOps、架構師等。下面是 GPT Pilot 創建應用程序的步驟：

**GPT Pilot 也不使用任何向量數據庫。**編碼工具通常使用不同的方法來獲取相關上下文，例如 GitHub Copilot 的算法通過查看最近使用的文件或打開的標籤頁中的代碼來實現。

從稍有不同的角度看，對於類似 AutoGPT 的項目，有兩種選擇：

第二個選項似乎更有可能在特定任務上實現更高的準確性，提示和代理的身份也可以更精確地描述如何解決問題。

搜索代理

自主代理可以使用各種我們提供的工具。它們可以使用 Google 來查找網絡上的相關信息，也可以使用計算器，甚至編寫和執行代碼來解決特定任務。

與其獲取相關的記憶，爲什麼不直接使用常規搜索來查找重要信息、以前的筆記呢？

搜索可以是一種抽象的概念，可以是關鍵字搜索、向量搜索或混合搜索，關鍵在於代理可以以不同的方式多次查詢，直到找到所需的信息或得出信息不存在的結論。

簡而言之

AutoGPT 決定放棄向量數據庫是朝着正確方向邁出的一步，專注於提供價值而不只是考慮技術。
編碼助手，如 GPT Engineer、GPT Pilot，甚至 GitHub Copilot，並沒使用向量數據庫，而是通過查看文件的最近使用情況、在文件系統中的接近度，或查找特定類別或函數的引用來找到相關上下文。
BabyAGI 仍然假定將記憶存儲在向量數據庫中，但似乎沒有太多更新，原始作者決定將算法保持簡單，作爲其他項目的示例或基礎。
複雜性是開發人員的最大敵人。

未來會發生什麼？

向量數據庫會被重新引入 AutoGPT 嗎？

向量數據庫實際上是否是 AI 革命的重要組成部分？還是 Pinecone 的願景成爲 AI 的長期記憶只會被認爲是一句空口號？

有人認爲真正的問題在於像 AutoGPT 這樣的項目並沒有提供真正的價值，發揮這些項目的價值可能還需要幾年時間。

再次強調，時間證明一切。

作者：張偉

來源：分佈式實驗室

原文：https://dariuszsemba.com/blog/why-autogpt-engineers-ditched-vector-databases/

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/bmMqVN-PCsVDFW2O0mx_bw