LLMs 時代之後的大型視覺模型 -LVMs- 新時代：方法、示例、應用場景

作者：Springs

編譯：ronghuaiyang

導讀

讓我們來看看大型視覺模型是如何進入生成式人工智能市場的，它們的工作原理以及它們在實際商業生活中可以被特別應用於哪些地方。在本文中，我們將嘗試向您展示 LVM 的起源、方法、應用場景以及不同的示例。

引言

根據 Authority Hacker 研究，目前全球大約有 35% 的企業使用人工智能。這表明在所有業務自動化流程中應用人工智能有着顯著的增長。因此，我們無法否認，在不久的將來，人工智能和機器學習幾乎會影響到每一家公司。

機器學習和 Transformer 模型已經成爲生成式人工智能行業的核心部分。近年來，LLM 在開發 AI 聊天機器人和虛擬助手方面展示了其顛覆性的應用。我們正步入一個新時代——大型視覺模型 (LVM) 的時代。

那麼，讓我們來看看大型視覺模型是如何進入生成式人工智能市場的，它們的工作原理以及它們在實際商業生活中可以被特別應用於哪些地方。在本文中，我們將嘗試向您展示 LVM 的起源、方法、應用場景以及不同的示例。

什麼是大型視覺模型 (LVM)？

定義

大型視覺模型 (LVM) 是一種複雜的人工智能 (AI) 系統，旨在分析和理解視覺信息，主要是圖像或視頻。LVM 可以被視爲 ** 大型語言模型 (LLM)** 的視覺對應物。這些模型以其龐大的參數數量爲特徵，通常達到數百萬甚至數十億，使它們能夠把握複雜的視覺模式。

設計

大型視覺模型的架構涉及利用先進的神經網絡架構。最初，卷積神經網絡 (CNN) 因其高效處理像素數據並識別層次化特徵的能力而在圖像處理領域佔據主導地位。最近，原本專爲自然語言處理設計的 Transformer 模型已被重新用於各種視覺任務，在某些情況下表現出更優的性能。

訓練

爲了訓練大型視覺模型，需要提供大量的視覺數據，例如圖像或視頻，以及相應的標籤或註釋，採用逐步序列建模框架。訓練者仔細標記大量的圖像集，爲模型提供上下文。

OpenAI 創造了一個完美的方案來展示它是如何工作的：

例如，在圖像分類任務中，每張圖像都會被打上對應的類別標籤。模型通過迭代優化其參數來最小化預測結果與真實標籤之間的差異。這一努力需要大量的計算資源和一個龐大且多樣化的數據集來訓練模型對新出現、未見過的數據的有效泛化能力。

例如，在圖像描述任務中，會生成一張圖像的自然語言描述，比如 “一個男人在一個晴朗的日子裏修剪草坪”。同樣，在視覺問答場景中，LVM 展現出對於針對圖像的自然語言問題提供細緻回答的能力，例如 “這臺割草機是什麼顏色？”

這就是 LVM 的工作方式。現在，讓我們來看看大型語言模型 (LLM) 和大型視覺模型 (LVM) 之間的區別。

LVM 與 LLM：有何不同？

在討論 LLM 和 LVM 的區別之前，讓我們簡要回顧一下 LLM 的工作原理以及它與自然語言處理 (NLP) 的聯繫。

大型語言模型 (LLM) 是一種特定類型的 NLP 模型，它使用深度學習技術，尤其是像 GPT（生成式預訓練 Transformer）這樣的模型，對大量文本數據進行訓練。這種模型能夠根據從訓練數據中學到的模式理解和生成類似人類的文字。

基本上，LLM 是 NLP 系統的關鍵組成部分。它們使計算機能夠理解和生成類似人類的文字，這對於廣泛的 NLP 應用至關重要，例如 AI 聊天機器人、語言翻譯、文本摘要、情感分析等。LLM 通過作爲強大的語言模型來支持許多 NLP 應用的基礎技術，能夠以高精度處理多種語言任務。

讓我們看一下下面的圖表，它顯示了 LVM 和 LLM 如何相互對應。

因此，儘管 LVM 和 LLM 來自相同的概念背景，但在應用和效果上卻有着顯著的區別。特別是 LLM，在通過大規模訓練互聯網文本數據的基礎上，展現出了理解與生成文本的卓越能力。

這一成就基於一個關鍵觀察：互聯網文本與專有文檔之間的相似度足夠高，使得 LLM 能夠熟練地適應並理解廣泛的文本內容。這就是我們現在看到的主要 LLM 與 LVM 區別所在。

大型視覺模型的例子有哪些？

至少有四家大公司已經被公認爲是當今 LVM 領域的頂級推動者：

OpenAI
Meta
Google
LandingAI

那麼，讓我們深入瞭解一下這些公司開發和支持的 LVM 示例。

OpenAI 的 CLIP

CLIP 或對比式語言 - 圖像預訓練是一種神經網絡，它使用多樣化的圖像集合及其對應的文本描述進行訓練。通過這個過程，它獲得了理解和以符合自然語言描述的方式表述圖像內容的能力。

利用這一能力，該模型能夠執行多種視覺相關的任務，包括零樣本分類，通過在自然語言的背景下解釋圖像。此模型可以輕鬆應用於許多生成式 AI 初創企業。它的訓練數據集包含 4 億對圖像和文本，使它能夠有效地連接計算機視覺和自然語言處理。因此，CLIP 在諸如標題預測和圖像摘要等任務中表現出色，即使沒有針對這些具體目標進行專門訓練。

Meta 的 DINOv2

DINOv2 是一種自我監督的視覺 Transformer 模型，屬於基礎模型家族，能夠產生適用於圖像級別的視覺任務（如圖像分類、實例檢索、視頻理解）以及像素級別的視覺任務（如深度估計、語義分割）的通用特徵。

一個包含 1.42 億張圖像的大型預訓練數據集經過精心收集和整理，來源於網絡爬取的數據，確保覆蓋各種重要的視覺領域。這種方法建立在 DINO 和 iBOT 的基礎上，並進行了多項改進，旨在提高特徵的質量和預訓練過程的效率。

此外，由這些模型生成的凍結特徵在一系列視覺任務上進行了評估，包括粗粒度和細粒度的視覺分類，以及視頻理解。這些結果與採用自我監督和弱監督技術的替代方法進行了仔細比較。

Google 的 ViT

Google 的視覺 Transformer (ViT) 完全採用了最初在自然語言處理中使用的 Transformer 模型架構，用於圖像甚至是面部識別的任務。它採取了一種類似於 Transformer 處理單詞序列的方式來處理圖像，證明了其在從圖像數據中識別相關特徵以進行分類和分析目的方面的有效性。此外，視覺 Transformer 將輸入圖像視爲一系列 patch，類似於自然語言處理 (NLP) Transformer 生成的一系列詞嵌入。

使用視覺 Transformer 框架，圖像被視爲一系列 patch。每個 patch 被展平成一個單獨的向量，類似於在 Transformer 中處理文本數據時使用詞嵌入的方法。這種方法賦予 ViT 自主掌握圖像結構方面並就類別標籤做出預測的能力。

Landing AI 的 LandingLens

LandingLens 由 LandingAI 開發，是一個旨在簡化計算機視覺模型創建和開發的平臺。該平臺是 LVM 示例之一，允許用戶構建和評估圍繞視覺數據的 AI 項目，適用於各種行業，而無需具備深厚的 AI 專業知識或複雜的編程技能。

通過標準化不同的深度學習解決方案，該平臺縮短了開發週期，並促進了在全球範圍內的無縫擴展。用戶可以保持靈活性來自行構建深度學習模型，並在不影響生產效率的情況下微調檢測準確性。

因此，通過使用 Landing AI 的 LVM，該平臺優先考慮大幅減少開發時間表，將幾個月的工作壓縮到幾周之內，同時簡化諸如標註、訓練和模型部署等流程。

LandingLens 提供直觀的分步用戶界面，簡化了開發過程，使 AI 開發者能夠構建特定領域的 LVM，而無需深入的技術專業知識。

大型視覺模型的應用場景有哪些？

LVM 應用場景：今天我們可以在哪些領域使用大型視覺模型？如何將 LVM 整合到不同的行業和業務中？讓我們試着找出答案。

大型視覺模型在各個行業中都有應用，從醫療保健和電子商務到安全、零售、娛樂和環境監測，展示了它們在現代技術進步中的多樣性和重要性。

內容創作和娛樂：

影視和視頻編輯：LVM 自動化視頻編輯和後期製作的部分工作。
遊戲開發：它們增強了現實環境和角色的創造。
圖像和視頻增強：這些模型提高了圖像和視頻的質量。
內容審覈：LVM 自動檢測並標記不適當或有害的視覺內容。

醫療保健和醫學影像：

疾病診斷：從 X 光片、MRI 或 CT 掃描等醫學影像中識別疾病，例如檢測腫瘤、骨折或異常。
病理學：在病理學中檢查組織樣本以檢測疾病的跡象，如癌症。
眼科學：通過分析視網膜圖像輔助疾病診斷。

物流和運輸：

導航和障礙規避：通過解讀實時視覺數據，幫助自動駕駛汽車和無人機進行操縱和避障。
物流中的 ML：利用 AI 驅動的視覺應用來幫助機器人完成分類、組裝和質量檢驗任務。

安全和監控：

面部識別：在安全系統中用於身份驗證和追蹤目的。
行爲監控：分析視頻流以識別異常或可疑行爲。

電子商務和零售：

視覺搜索：在電子商務行業中，使顧客能夠使用圖像而非文本進行產品搜索。
庫存管理：通過視覺識別技術實現庫存監控和管理的自動化。

農業：

作物監測與分析：使用無人機或衛星圖像監測作物健康狀況和生長情況。
害蟲檢測：識別影響作物的害蟲和疾病。

環境監測：

野生動物追蹤：爲保護工作識別和追蹤野生動物。
土地利用和土地覆蓋分析：監測隨時間變化的土地利用和植被覆蓋情況。

總的來說，可以通過壓縮和優化技術（如剪枝、量化或蒸餾）將 LVM 定製爲邊緣設備適用。剪枝消除了多餘的或冗餘的參數，量化減少了表示每個參數所需的位數，而蒸餾則將知識從大型模型轉移到小型模型。

通過採用這些方法和技術，並利用現代 AI 技術，LVM 縮小了其大小、內存佔用和延遲，同時保持了性能的完整性。這種適應性使它們非常適合並且能夠在各種應用和硬件環境中擴展。

大型視覺模型面臨的挑戰有哪些？

儘管具有巨大的潛力，大型視覺模型 (LVM) 還面臨着諸多挑戰，必須有效解決這些問題才能促進廣泛採用和倫理使用。其中一個關鍵問題是數據偏見，因爲訓練在有偏見的數據集上的模型可能會遇到社會偏見。解決這一挑戰需要建立措施以確保訓練數據的多樣性和代表性。

根據診斷影像研究，在 555 個 AI 模型中，研究人員發現 83.1%（461 個模型）存在高度偏見風險 (ROB)。元分析作者還指出，在 71.7%（398 個模型）的樣本量不足，並且在 99.1%（550 個模型）的 AL 模型中處理數據複雜性不夠充分。

另一個障礙源於 LVM 的可解釋性問題，這是由於深度神經網絡本身的複雜性造成的。要在這些模型中建立信任，就需要發展方法來清晰地解釋和理解它們的決策過程。

此外，無論是訓練還是部署，都需要大量的計算資源，這對生成式 AI 初創企業和研究人員來說可能是一個潛在的障礙。隨着 LVM 的規模和複雜性的不斷增長，確保其可訪問性成爲了一個重要的考量因素。

最後，隱私問題尤其突出，尤其是在 LVM 用於監控應用的情境下。在利用這項技術的優勢與保護個人隱私權利之間找到微妙的平衡對於道德和負責任的部署至關重要。

大型視覺模型 (LVM) 的未來

展望未來，大型視覺模型在 AI/ML 開發中的路徑充滿無限潛力，不僅塑造着技術格局，而且也在改變着各行各業的運作動態。

LVM 發展的增長

在大型視覺模型領域持續的研究和發展努力正準備突破現有界限。工程師們正在積極探索創新的架構、優化技術和訓練方法，以提高這些模型的效率和性能。持續努力解決諸如模型可解釋性、降低計算需求以及開發節能解決方案等問題有望推動大型視覺模型的發展。

NLP 與 LVM 的結合

大型視覺模型與其他 AI 技術的融合有望創造出協同效應，從而放大人工智能的整體能力。大型視覺模型與自然語言處理 (NLP) 模型之間的合作可能會導致更加全面的 AI 系統，這些系統能夠理解和生成視覺和文本信息。此外，大型視覺模型與強化學習技術的融合可能有助於在動態和複雜的環境中做出更高級別的決策。

跨行業的潛力

大型視覺模型在各個行業的潛力深遠。在醫療保健領域，這些模型可能會徹底改變診斷、藥物發現和個人化醫療，增強醫療專業人員的能力。在製造業，大型視覺模型可以優化質量控制過程，從而提高效率並減少缺陷。

零售業也將受益於這些模型所促進的先進推薦系統和無收銀員結賬解決方案。此外，大型視覺模型在自動駕駛車輛中的集成可能會推動更安全、更可靠的交通系統的開發。

來自正在進行的研究的思想和技術交叉融合有望產生不僅更強大而且更易獲取的解決方案，推動 AI 能力在各個行業的普及，如教育、物流或汽車領域。隨着大型視覺模型的不斷髮展，它們與其它 AI 技術的無縫集成及其對各個領域產生的積極影響預示着一個未來，在那裏 AI 成爲日常生活不可或缺的一部分，通過智能、效率和定製的精確性提升各項任務。

結論

企業需要爲充滿 AI 技術的未來做好準備。LLM、LVM 和其他 AI 模型已成爲技術領域不可或缺的實體。隨着我們擁抱正在進行的研究、期待跨學科合作，並預見它們對各個行業的變革性影響，很明顯，大型視覺模型不僅僅是一種工具。這些 AI 模型體現了我們在對待和利用人工智能方法上的範式轉變。

—END—

英文原文：https://medium.com/@springs_apps/a-new-era-of-large-vision-models-lvms-after-the-llms-epoch-approach-examples-use-cases-7c41f1aaf5cd

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/5Se55nKOm4ZEr9CZ0zMrpQ

引言