瞭解 Llama 3:迄今最強大的免費開源大模型從概念到使用

探索 Llama 3:Meta 推出的創新開源 LLM,介紹其架構、訓練和實踐應用,助力 AI 開發者。本文譯自:https://www.unite.ai/everything-you-need-to-know-about-llama-3-most-powerful-open-source-model-yet-concepts-to-usage/

Meta 公司最近發佈了 Llama 3[1],這是其最新一代尖端開源大型語言模型(LLM)。基於其前身的基礎之上,Llama 3 旨在提升 Llama 2 作爲與 ChatGPT 競爭的重要開源產品的能力,如文章 Llama 2: 深入探索開源挑戰者 ChatGPT[2] 中全面回顧的那樣。

在本文中,我們將討論 Llama 3 背後的核心概念,探索其創新架構和訓練過程,並提供關於如何負責任地訪問、使用和部署這一開創性模型的實際指導。無論你是研究人員、開發者還是 AI 愛好者,這篇文章都將爲你提供利用 Llama 3 爲你的項目和應用賦能的知識和資源。

Llama 的演變:從 Llama 2 到 Llama 3

Meta 的 CEO,Mark Zuckerberg,在 Threads.net[3] 上宣佈了 Llama 3 的首次亮相,這是 Meta AI 開發的最新 AI 模型。這個尖端模型現在已開源,旨在提升 Meta 的各種產品,包括 Messenger 和 Instagram。Zuckerberg 強調,Llama 3 使 Meta AI 成爲最先進的免費可用的 AI 助手 [4]。

在我們討論 Llama 3 的具體細節之前,讓我們簡要回顧一下它的前身,Llama 2。Llama 2 於 2022 年推出,是開源 LLM 領域的一個重要里程碑,提供了一個強大而高效的模型,可以在消費者硬件上運行。

然而,儘管 Llama 2 取得了顯著的成就,但它也有其侷限性。用戶報告了一些問題,如錯誤拒絕(模型拒絕回答無害的提示)、有限的幫助性,以及在推理和代碼生成等領域的改進空間。

進入 Llama 3:Meta 對這些挑戰和社區的反饋做出了迴應。通過 Llama 3,Meta 設定了與當今市場上頂級專有模型相媲美的最佳開源模型的目標,同時也優先考慮了負責任的開發和部署實踐。

Llama 3:架構和訓練

Llama 3 的一項關鍵創新是其分詞器,特點是顯著擴展的詞彙表,128,256 個 token(從 Llama 2 的 32,000 個增加)。這更大的詞彙表允許更有效的文本編碼,無論是輸入還是輸出,可能導致更強的多語言能力和整體性能的提升。

Llama 3 還採用了分組查詢注意力(GQA),這是一種提高可擴展性的有效表示技術,有助於模型更有效地處理更長的上下文。8B 版本的 Llama 3 使用了 GQA,而 8B 和 70B 模型都可以處理長達 8,192 個 token 的序列。

訓練數據和擴展

用於 Llama 3 的訓練數據是其性能提升的關鍵因素。Meta 精心策劃了一個包含超過 15 萬億 token 的龐大數據集,來自公開可獲得的在線來源,是用於 Llama 2 的數據集的七倍。這個數據集還包括了超過 5% 的高質量非英語數據,涵蓋了 30 多種語言,爲未來的多語言應用做準備。

爲了確保數據質量,Meta 採用了先進的過濾技術,包括啓發式過濾器、NSFW 過濾器、語義去重和訓練在 Llama 2 上預測數據質量的文本分類器。團隊還進行了廣泛的實驗,以確定預訓練的最佳數據來源組合,確保 Llama 3 在廣泛的用例上表現良好,包括瑣事、STEM、編碼和歷史知識。

放大預訓練是 Llama 3 開發的另一個關鍵方面。Meta 開發了縮放法則,使他們能夠在實際訓練之前預測其最大模型在關鍵任務上的性能,如代碼生成。這些信息指導了關於數據組合和計算分配的決策,最終導致了更有效和有效的培訓。

Llama 3 最大的模型是在兩個定製構建的 24,000 GPU 集羣上訓練的,利用數據並行、模型並行和流水線並行技術的組合。Meta 的先進訓練堆棧自動化了錯誤檢測、處理和維護,最大化了 GPU 的運行時間,使訓練效率比 Llama 2 提高了大約三倍。

指令微調和性能

爲了充分發揮 Llama 3 在聊天和對話應用中的潛力,Meta 創新了其指令微調方法。其方法結合了監督微調(SFT)、拒絕抽樣、近端政策優化(PPO)和直接偏好優化(DPO)。

SFT 中使用的提示質量和在 PPO 和 DPO 中使用的偏好排名在對齊模型的性能中起着關鍵作用。Meta 的團隊精心策劃了這些數據,並對由人類註釋者提供的註釋進行了多輪質量保證。

通過 PPO 和 DPO 對偏好排名進行訓練還顯著提高了 Llama 3 在推理和編碼任務上的性能。Meta 發現,即使模型在直接回答推理問題時遇到困難,它仍然可能產生正確的推理跡象。通過偏好排名的訓練,模型學會了如何從這些跡象中選擇正確的答案。

對比結果

成果顯而易見:Llama 3 在常見的行業基準測試中表現優於許多可用的開源聊天模型,爲 LLM 的 8B 和 70B 參數級別建立了新的最佳性能。

負責任的開發和安全考慮

在追求尖端性能的同時,Meta 也優先考慮了負責任的開發和部署實踐,用於 Llama 3。該公司採用了系統級方法,將 Llama 3 模型視爲更廣泛生態系統的一部分,使開發者能夠設計和定製模型以滿足其特定用例和安全要求。

Meta 進行了廣泛的紅隊演習,執行了對抗評估,並實施了安全緩解技術,以降低其指令調優模型中的殘餘風險。然而,該公司承認可能仍會存在殘餘風險,並建議開發者在其特定用例的背景下評估這些風險。

爲支持負責任的部署,Meta 更新了其負責任使用指南,爲開發者提供了一個全面的資源,以實施模型和系統級安全最佳實踐,用於他們的應用。該指南涵蓋了內容審查、風險評估和使用安全工具(如 Llama Guard 2 和 Code Shield)等主題。

Llama Guard 2,基於 MLCommons 分類法構建,旨在對 LLM 輸入(提示)和響應進行分類,檢測可能被視爲不安全或有害的內容。CyberSecEval 2 在其前身的基礎上增加了措施,以防止模型的代碼解釋器被濫用、攻擊性網絡安全能力和對提示注入攻擊的易感性。

Code Shield 是 Llama 3 新推出的一個介紹,增加了推斷時間的不安全代碼過濾,減輕了不安全代碼建議、代碼解釋器濫用和安全命令執行等風險。

訪問和使用 Llama 3

隨着 Meta AI 的 Llama 3 發佈,已推出了幾種開源工具,可在各種操作系統上進行本地部署,包括 Mac、Windows 和 Linux。本節詳細介紹了三個值得注意的工具:Ollama、Open WebUI 和 LM Studio,每個工具都提供了利用 Llama 3 功能的獨特功能。

Ollama:適用於 Mac、Linux 和 Windows,Ollama[5] 簡化了在個人計算機上操作 Llama 3 和其他大型語言模型的過程,即使是那些硬件較弱的設備也是如此。它包括一個包管理器,便於模型管理,並支持跨平臺的下載和運行模型的命令。

Open WebUI with Docker:這個工具提供了一個用戶友好的、基於 Docker[6] 的界面,兼容 Mac、Linux 和 Windows。它與 Ollama 註冊表中的模型無縫集成,允許用戶在本地 Web 界面內部署和交互,例如 Llama 3。

LM Studio:面向 Mac、Linux 和 Windows 的用戶,LM Studio[7] 支持一系列模型,基於 llama.cpp 項目構建。它提供了一個聊天界面,便於直接與各種模型進行交互,包括 Llama 3 8B Instruct 模型。

這些工具確保用戶可以在個人設備上高效利用 Llama 3,滿足技術技能和需求的不同範圍。每個平臺都提供了設置和模型交互的分步過程,使先進的人工智能更加易於開發者和愛好者接觸。

大規模部署 Llama 3

除了直接提供模型權重外,Meta 還與各種雲提供商、模型 API 服務和硬件平臺合作,實現 Llama 3 的無縫部署。

Llama 3 的一大優勢是其改進的 token 效率,這要歸功於新的分詞器。基準測試顯示,與 Llama 2 相比,Llama 3 需要的 token 減少了 15%,從而實現了更快、更經濟的推斷。

Grouped Query Attention (GQA) 的整合在 Llama 3 的 8B 版本中有助於保持與 Llama 2 的 7B 版本相當的推斷效率,儘管參數數量增加了。

爲簡化部署流程,Meta 提供了 Llama Recipes 代碼庫,其中包含開源代碼和微調、部署、模型評估等示例。這個代碼庫爲開發者提供了一個寶貴的資源,幫助他們利用 Llama 3 的能力來應用到他們的應用中。

對於那些有興趣探索 Llama 3 性能的人來說,Meta 已經將其最新模型整合到 Meta AI 中,這是一個以 Llama 3 技術構建的領先人工智能助手。用戶可以通過各種 Meta 應用程序,如 Facebook、Instagram、WhatsApp、Messenger 和 Web 與 Meta AI 進行交互,以完成任務、學習、創造和與他們關心的事物建立聯繫。

Llama 3 接下來會怎樣?

儘管 8B 和 70B 模型標誌着 Llama 3 發佈的開始,但 Meta 對這款開創性 LLM 的未來有雄心勃勃的計劃。

在未來幾個月,我們可以期待看到新功能的引入,包括多模態(能夠處理和生成不同數據模態,如圖像和視頻)、多語言支持(支持多種語言)和更長的上下文窗口,以提高在需要廣泛上下文的任務上的性能。

此外,Meta 計劃發佈更大的模型大小,包括目前正在訓練中的超過 4000 億參數的模型,這些模型在性能和能力方面展現出了有前途的趨勢。

爲了進一步推進該領域的發展,Meta 還將發佈關於 Llama 3 的詳細研究論文,與廣泛的 AI 社區分享其發現和見解。

作爲即將推出的內容的預覽,Meta 分享了一些其最大 LLM 模型在各種基準上的早期性能快照。儘管這些結果是基於早期檢查點的,並且可能會發生變化,但它們提供了一個激動人心的展望,展示了 Llama 3 的未來潛力。

結論

Llama 3 代表了開源大型語言模型演變的一個重要里程碑,推動了性能、能力和負責任開發實踐的邊界。憑藉其創新架構、龐大的訓練數據集和尖端的微調技術,Llama 3 爲 LLM 的 8B 和 70B 參數級別建立了新的最佳性能基準。

然而,Llama 3 不僅僅是一個強大的語言模型;它還體現了 Meta 致力於培養一個開放和負責任的 AI 生態系統的承諾。通過提供全面的資源、安全工具和最佳實踐,Meta 授權開發者充分利用 Llama 3 的潛力,同時確保根據其特定用例和受衆的需求實現負責任的部署。

隨着 Llama 3 之旅的繼續,隨着新的能力、模型大小和研究發現的出現,AI 社區熱切期待從這款開創性 LLM 中湧現出的創新應用和突破。

無論你是一名推動自然語言處理邊界的研究人員、一名構建下一代智能應用的開發者還是對最新進展感到好奇的 AI 愛好者,Llama 3 都承諾成爲你工具箱中的強大工具,開啓新的大門並解鎖一系列可能性。

引用鏈接

[1] Llama 3: https://ai.meta.com/blog/meta-llama-3/
[2] Llama 2: 深入探索開源挑戰者 ChatGPT: https://www.unite.ai/llama-2-a-deep-dive-into-the-open-source-challenger-to-chatgpt/
[3] Threads.net: https://www.threads.net/@zuck/post/C56MFEKxl-x
[4] 免費可用的 AI 助手: https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/
[5] Ollama: https://ollama.com/download
[6] Docker: https://docs.docker.com/desktop/
[7] LM Studio: https://lmstudio.ai/

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/xjTLd9jqf7z2MZ5deqoF1Q