十大開源 GPT 替代模型，實現屬於你自己的 chatGPT

今年 chatGPT 真的是出盡了風頭，搞得好像凡是不講 chatGPT 的都是村裏還沒通網絡的，各種技術平臺也是充斥着人工智能的相關文章，凡是不談人工智能的感覺都要跟不上時代了~

社區裏面不少朋友們都在諮詢 LLM 大預言模型的相關內容，另外都特別糾結不翻 * 牆的話用不了 chatGPT。於是乎，我認真準備了幾天，終於梳理完這篇文章的內容，那就是開源的大語言模型，可以作爲 chatGPT 的替換方案，讓每個人都可以擁有自己的大語言模型。

本文梳理出來 10 個當前熱門、效果好的 10 個開源 LLM 模型，讓你體驗一把自己玩轉模型的快樂。

LLaMA

github 項目名稱：facebookresearch/llama
Star 數量：21.5K

LLaMA 是 Large Language Model Meta AI 的縮寫，它是 Meta 開源的一個基礎大語言模型，它具有多個模型版本，參數規模從 70 億、130 億到 300 億、650 億，其中 LLaMA-13B 在大多數基準上超過了 GPT-3（175B），而 LLaMA-65B 與好的模型 Chinchilla70B 和 PaLM-540B 相比也具有競爭力。

LLaMA 是一種先進的基礎大語言模型，旨在幫助研究人員推進他們在 AI 子領域的工作，LLaMA 等更小、性能更高的模型使得基礎設施資源有限的研究者們也可以玩轉大語言模型。

LLaMA 需要更少的算力，適合對各種任務進行微調在生成創意文本、解決數學定理、回答閱讀理解問題等方面表現。

Alpaca

github 項目名稱：tatsu-lab/stanford_alpaca
Star 數量：23.9K

Alpaca 模型是 stanford 開源的一種輕量級的語言模型，它可以根據用戶輸入的指令來生成不同類型的文本，例如郵件、社交媒體、生產性工具等。Alpaca 模型是基於 LLaMA 模型微調而來的，LLaMA 模型是 Meta 公司發佈的一系列大規模的預訓練語言模型。

Alpaca 模型的訓練方法分爲兩個部分：部分是使用 self-instruct 思想，利用 text-davinci-003 模型來自動生成指令和輸出的數據集；第二部分是在這個數據集上通過監督學習來微調 LLaMA 模型。Alpaca 模型的訓練成本非常低，只需要在 8 張 A100 80G 上訓練 3 個小時，花費不到 100 美元。

Alpaca 模型的性能也非常出色，在單輪指令執行的效果上，Alpaca 模型的回覆質量和 text-davinci-003 模型相當，但是 Alpaca 模型的參數量只有 7B，而 text-davinci-003 模型的參數量有 175B。Alpaca 模型還可以適用於消費級顯卡，通過使用 LoRA 技術來降低內存佔用和計算量。

Alpaca 模型是一個開源的項目，它繼承了 LLaMA 模型的開源協議，僅限於學術研究，其模型的訓練數據和代碼都可以在 GitHub 上找到。

alpaca 這個詞還有另一個意思，是一種南美洲的駝科動物，它和羊駝很像，但是通常比羊駝小一些, 所以也被人們稱爲 “羊駝模型”。

alpaca 發佈以後，在國內廣受歡迎，屬於非常熱門的一個替代模型。

Alpaca-LoRA

github 項目名稱：tloen/alpaca-lora
Star 數量：14.7K

alpaca-lora 模型是一種使用 lora 技術在 llama 模型上進行微調的輕量級語言模型，它可以根據用戶輸入的指令來生成不同類型的文本，例如郵件、社交媒體、生產性工具等。alpaca-lora 模型是基於 alpaca 模型改進而來的，alpaca 模型是 Stanford 大學的研究者開源的，它是基於 Meta 公司的 llama 模型微調而來的。

lora 技術是一種低秩適應（low-rank adaptation）的技術，它可以在凍結原模型 llama 參數的情況下，通過往模型中加入額外的網絡層，並只訓練這些新增的網絡層參數。由於這些新增參數數量較少，這樣不僅微調的成本顯著下降，還能獲得和全模型微調類似的效果。

alpaca-lora 模型的訓練方法分爲兩個部分：部分是使用 self-instruct 思想，利用 text-davinci-003 模型來自動生成指令和輸出的數據集；第二部分是在這個數據集上通過監督學習來微調 llama 模型，並使用 lora 技術來減少參數量。alpaca-lora 模型的訓練成本非常低，只需要在一塊 RTX 4090 顯卡上訓練 5 個小時，就可以訓練出一個與 alpaca 水平相當的模型。

微調是非常重要的一項能力，實際上很多大語言模型要真正應用於某些特定場景必須經過微調，而 lora 是進行微調的一個效果比較好的常規方案。

Chinese-Vicuna

github 項目名稱：Facico/Chinese-Vicuna
Star 數量：2.9K

Chinese-Vicuna 是一箇中文低資源的 llama+lora 方案，基於 LLaMA+instruction 數據構建，這個模型的主要特點是對中文更加友好地支持，參數高效，顯卡友好，部署簡易，使用較少的資源訓練出較好地效果。

官方介紹，模型對資源地消耗比較小，例如

在一張 2080Ti（11G）上可以對 Llama-7B 進行指令微調
在一張 3090（24G）上可以對 Llama-13B 進行指令微調
即使是長度爲 2048 的對話，在 3090 上也可以完成 Llama-7B 的微調；使用 5 萬條數據即可有不錯效果

如果你的需求是儘量少的資源，使用某些垂直場景的數據進行微調，需要對中文更友好地支持，這個模型是個不錯的選擇。

BLOOM

項目名稱（huggingface 託管）：bigscience/bloom
Star 數量：3.5K

BLOOM 模型是 bigscience 開源的大語言模型，它是 BigScience Large Open-science Open-access Multilingual Language Model 的縮寫。BLOOM 是在 46 種自然語言和 13 種編程語言上訓練的 1760 億參數語言模型，其是由數百名研究人員合作開發和發佈的。

Bloom 模型通過 Transformer 架構實現，利用自注意力機制和大規模訓練數據對語言進行建模。通過在海量文本數據上進行預訓練，Bloom 模型能夠學習到豐富的語言表示和語義知識，從而具備強大的語言理解和生成能力。

BLOOM 的模型架構與 GPT3 非常相似，但是做了一些改進，突出的特點是千億級別的參數規模，使得 Bloom 模型在語言理解和生成任務中能夠表現出色，另外 BLOOM 支持多模態，使得 Bloom 模型在處理與語言相關的多模態任務時具備優勢，如視覺問答、圖像描述生成等。

總體來說，BLOOM 在語言生成、文本理解和分類、問答、遷移學習、可解釋性與可控性方面表現良好，可以在機器翻譯、摘要生成、情感分析、對話系統、信息檢索等場景應用，目前國內已有部分企業在落地應用。

BELLE

github 項目名稱：LianjiaTech/BELLE
Star 數量：5.3K

BELLE 是 Be Everyone's Large Language model Engine 的縮寫，是一個開源的中文對話大模型，BELLE 更關注如何在開源預訓練大語言模型的基礎上，幫助每一個人都能夠得到一個屬於自己的、效果儘可能好的具有指令表現能力的語言模型，降低大語言模型、特別是中文大語言模型的研究和應用門檻。

BELLE 模型是一種基於深度神經網絡的大規模多模態語言模型。它將語言和視覺信息相結合，通過聯合學習來理解和生成多模態數據。BELLE 模型採用了先進的神經網絡架構，如 Transformer 和卷積神經網絡（CNN），以實現對文本和圖像等多模態數據的深度表示學習。

BELLE 在多模態學習、語言理解與生成能力、視覺問答、視覺推理、圖像描述生成等方面表現。

T5

github 項目名稱：google-research/text-to-text-transfer-transformer
Star 數量：5.2K

T5（Text-to-Text Transfer Transformer）模型是 google 開源的一種基於 Transformer 架構的大型預訓練語言模型，被廣泛應用於自然語言處理（NLP）領域。T5 模型以 "Text-to-Text" 的方式統一了各種 NLP 任務的表達方式，通過將不同任務轉化爲文本到文本的轉換問題，實現了多任務學習和遷移學習的能力。

T5 模型的突出重點能力：

多任務學習：T5 模型能夠同時處理多個不同的 NLP 任務，包括機器翻譯、文本摘要、問答系統、文本分類等。通過在大規模數據上進行聯合訓練，T5 模型能夠學習到通用的語言表示和任務處理能力，從而在多個任務上展現出色的性能。
遷移學習：由於 T5 模型在多任務學習中進行了大規模預訓練，它具備較強的遷移學習能力。這意味着 T5 模型在新的任務上可以通過微調少量的任務特定數據，快速適應並取得的表現，從而降低了針對不同任務的訓練成本和時間。
通用的文本到文本框架：T5 模型採用了統一的文本到文本框架，即將輸入和輸出都表示爲文本序列。這種設計使得 T5 模型能夠在處理不同任務時具有一致的表達形式，簡化了模型的設計和應用。通過適當的任務描述和輸入形式，T5 模型可以根據任務的不同進行轉換，實現靈活且高效的多任務處理。

T5 模型的應用場景：

機器翻譯：T5 模型可以用於將一個語言翻譯成另一個語言，實現高質量的自動翻譯，有助於促進跨語言交流和信息傳播。
文本摘要：T5 模型能夠將長文本內容進行概括和提煉，生成簡潔準確的文本摘要，有助於處理大量信息和快速獲取關鍵信息。
問答系統：T5 模型可以用於問答任務，根據問題提供準確的答案或解決方案，使得問答系統更具智能和實用性。
文本分類：T5 模型能夠對文本進行分類，識別文本所屬的類別或標籤，如情感分析、垃圾郵件過濾、新聞分類等。
自動文本生成：T5 模型具備強大的文本生成能力，可以生成
自動對話系統：T5 模型在對話系統中具有廣泛應用。它可以根據用戶的輸入生成自然流暢的回覆，實現智能對話和交互。
文本糾錯和改寫：T5 模型可以用於糾正文本中的拼寫錯誤、語法錯誤或重寫不通順的句子，提供文本的修正和改進建議。
文本生成和創作助手：T5 模型在文本生成領域表現出色，可以用於生成文章、故事、詩歌等各種文本形式，爲創作者提供靈感和輔助創作。
信息檢索和推薦：T5 模型可以用於對用戶的查詢進行理解，並根據用戶需求生成相關的搜索結果或推薦信息，提升信息檢索和推薦系統的精準度和個性化程度。
領域專屬任務：T5 模型具備很強的靈活性和可擴展性，可以通過微調和領域自適應進行定製化，適用於特定領域的任務，如醫療領域的病歷摘要、法律領域的法律文件分析等。

T5 模型是一種強大的大規模預訓練語言模型，在多任務學習和遷移學習方面具備突出能力。它在機器翻譯、文本摘要、問答系統、文本分類等任務中展現出色的性能，並在多個應用場景中發揮重要作用，爲自然語言處理領域的發展帶來了巨大的推動力。

BERT

github 項目名稱：google-research/bert
Star 數量：34.3K

BERT（Bidirectional Encoder Representations from Transformers）模型是一種基於 Transformer 架構的雙向編碼器語言模型，被廣泛應用於自然語言處理（NLP）領域。BERT 模型通過預訓練和微調的方式，實現了對文本的深度理解和表徵學習，並在多個 NLP 任務中取得了卓越的性能。

BERT 模型的突出重點能力：

雙向上下文表示：BERT 模型採用雙向上下文編碼的方式，能夠同時利用上下文的信息來理解文本。它通過 Masked Language Model（MLM）和 Next Sentence Prediction（NSP）任務的預訓練，使得模型能夠學習到豐富的句子級和詞級的上下文表示。
上下文敏感的詞向量：BERT 模型生成的詞向量具有上下文敏感性，即同一個詞在不同上下文中可以具有不同的表示。這種能力使得 BERT 模型能夠更好地捕捉詞義的多樣性和語境的變化，提升了文本理解和表徵的準確性。
預訓練和微調：BERT 模型採用兩階段的訓練方式。首先，通過大規模的無標籤數據進行預訓練，學習通用的語言表示。然後，在特定任務上使用有標籤數據進行微調，將模型應用於具體任務並進行優化。這種訓練方式使得 BERT 模型能夠充分利用大量無標籤數據和少量有標籤數據，實現遷移學習和泛化能力的提升。

BERT 模型的應用場景：

文本分類和情感分析：BERT 模型在文本分類任務中表現出色，能夠對文本進行分類和情感分析，如新聞分類、產品評論情感分析等。
問答系統：BERT 模型在問答任務中具有的性能，能夠根據給定的問題和上下文生成準確的回答，如閱讀理解、常識問答等。
命名實體識別和實體關係抽取：BERT 模型能夠識別文本中的命名實體，並提取實體之間的關係，如人物關係抽取、醫療實體識別等。
機器翻譯和文本生成：BERT 模型可以應用於機器翻譯任務，將一種語言翻譯成另一種語言，也可以用於生成自然流暢的文本，如摘要生成、對話系統等。
文本匹配和相似度計算：BERT 模型能夠判斷兩段文本之間的相似度或匹配程度，如搜索引擎中的查詢和文檔匹配、句子相似度計算等。
文本生成和創作助手：BERT 模型具備強大的文本生成能力，可以用於生成文章、故事、詩歌等各種文本形式，爲創作者提供靈感和輔助創作。
語義理解和句子表徵：BERT 模型可以將文本句子映射爲高質量的語義向量表示，用於計算句子相似度、聚類分析、語義搜索等任務。
領域特定任務：BERT 模型可以通過在特定領域進行微調，適用於領域特定的任務，如醫療領域的疾病診斷、法律領域的案例分析等。

BERT 模型作爲一種強大的雙向編碼器語言模型，具備雙向上下文表示、上下文敏感的詞向量和預訓練微調等突出能力。它在文本分類、問答系統、命名實體識別、機器翻譯等多個 NLP 任務中取得了顯著的性能提升，並在廣泛的應用場景中發揮重要作用。

OPT

github 項目名稱：facebookresearch/metaseq
Star 數量：5.9K

OPT 是 Open Pre-trained Transformers 的縮寫，是 Meta 開源的 AI 模型，它僅支持英文，暫不支持中文。OPT 提供了不同規模的參數模型，其參數規模從 125 million 到 175 billion 不等，其中 OPT-175B 是一個擁有 1750 億個參數的語言模型，使用了 5 個公開數據集的 800 GB 數據進行訓練，其他小規模模型的參數包括 1.25 億、3.5 億、13 億、27 億、67 億、130 億和 300 億等，可以適用於不同的場景和需求。

OPT 模型與 GPT 系列模型類似，都採用了 Transformer-Decoder 結構，使用了自迴歸的方式來生成文本, 使用了一些先進的分佈式訓練技術，如 Fully Sharded Data Parallel 和 Tensor Parallelism，以及一些優化策略，如 AdamW 和 gradient clipping，來提高訓練效率和穩定性。

OPT 剛發佈的時候引起了轟動和廣泛關注，因爲它 1750 億參數比 GPT3 的 3750 億的參數更少，但是它的效果卻能夠對標 GPT3，在多個 NLP 任務中，如文章生成，代碼生成，機器翻譯，Q&A 等，都取得了與 GPT-3 可比甚至更好的效果，而只用了 GPT-3 的 1/7 的計算資源, Meta AI 表示，低只需要 16 塊英偉達 V100 GPU，就能訓練並部署 OPT-175B 模型。

OPT 模型不僅開源了代碼和權重文件，還開源了訓練筆記和數據集，方便其他研究者和開發者復現和使用。

GLM

github 項目名稱：THUDM/ChatGLM-6B，THUDM/ChatGLM-130B
Star 數量：25.3K

隨着自然語言處理（Natural Language Processing，NLP）領域的快速發展，語言模型的重要性不斷凸顯。其中，GLM（Giant Language Model）作爲一種強大的語言模型，已經在 NLP 任務中取得了令人矚目的成果。

GLM 模型是基於深度神經網絡的語言模型，其主要目標是理解和生成自然語言。GLM 採用了 Transformer 架構，這是一種自注意力機制的模型，能夠有效地捕捉輸入文本中的上下文關係和語義信息。通過在大規模文本數據上進行預訓練，GLM 模型能夠學習到豐富的語言表示，包括詞彙、句法和語義等方面的知識。

GLM 模型具有以下幾個顯著特點：

大規模參數：GLM 模型通常擁有數十億到數百億的參數量級，能夠學習到更豐富、更準確的語言表示。
上下文理解：通過自注意力機制，GLM 模型能夠準確捕捉到文本中的上下文關係，提高對句子整體含義的理解能力。
多任務學習：GLM 模型可以通過聯合訓練多個 NLP 任務，共享模型參數，提高模型的泛化能力和效果。

GLM 模型可以應用於內容生成、問答系統、分類檢索等多個場景，但是推理能力稍微弱一點。

目前清華大學開源的 GLM 模型比較熱門的有 GLM-6B 和 GLM-130B，支持中英文，其中 GLM-6B 對中文的支持很好，訓練和推理需要的資源比較低，開放了 API 調用，使用門檻較低，在國內的開源社區非常火爆，值得一試。

GLM-130B 支持單臺 A100（40G * 8）或 V100（32G * 8）服務器上具有 130B 參數的推理任務，支持中英雙語，支持在 NVIDIA、Hygon DCU、Ascend 910、Sunway 上的訓練和推理。

性能方面，在 7 個零樣本 CLUE 數據集（+24.26%）和 5 個零樣本 FewCLUE 數據集（+12.75%）上明顯優於 ERNIE TITAN 3.0 260B，在 LAMBADA 上優於 GPT-3 175B davinci (+5.0%)、OPT-175B (+6.5%) 和 BLOOM-176B (+13.0%)，略優於 GPT-3 175B (+0.9%) 。

GLM 模型的迭代速度很快，社區也很熱鬧，近期還輸出了支持多模態的能力，相信功能會越來越豐富的, 能力會越來越強。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://z.itpub.net/article/detail/5CD24C9B5CBDDF7D8CA6B37CEBA02243