Qwen2 Audio 7B：最新！阿里開源語音交互大模型！（本地部署教程）

Hi，這裏是 Aitrainee，歡迎閱讀本期新文章。

在本文中，我們將本地安裝這個由阿里推出的全新 Qwen 模型，它是一個名爲 Qwen2 Audio 7B Instruct 的音頻處理模型。

這個模型非常適用於音頻分析和處理，此外你還可以將它集成到 NLP 管道中。

它能夠接受各種音頻信號輸入，並執行音頻分析或針對語音指令給出直接的文本響應。這個模型提供了兩種不同的音頻交互模式。

第一種模式是語音聊天模式，你可以自由地進行語音交互，即使不輸入任何文本也可以。你可以流式傳輸你的語音，它會將其轉換爲音頻。

第二種音頻分析模式，你可以直接提供音頻和文本指令，例如一個 wav 文件，它會進行音頻分析並根據分析結果給出輸出。

阿里同時也推出了一個微調版的 Instruct 模型，我們將安裝這個 Instruct 模型。

創建一個 conda 環境並激活它。

讓我們等待環境安裝完成，然後我們將開始安裝所需的前置軟件。

首先，我安裝了 PyTorch，

然後我還將從源代碼安裝 Transformers 庫，因爲這個模型非常新，PyPI 上還沒有提供這個版本。

讓我們等待這個安裝完成，PyTorch 已經安裝完成，它是一個基礎的深度學習庫。

接着，我們安裝 Transformers 庫，

我是從 GitHub 安裝的，即從源代碼安裝。這是一個用於自然語言處理任務的基礎庫，主要用於文本生成和分類。

讓我們等待它安裝完成，這個庫不大，只需要幾秒鐘。現在安裝完成了。

**接下來，**我們安裝 Hugging Face Hub 和 Accelerate 庫。

Hugging Face Hub 用於訪問 Hugging Face 平臺，Accelerate 用於優化模型。兩個庫都已安裝完成。

現在讓我們安裝一些輔助庫，我將一次性粘貼所有命令來加快速度。你看到我們正在安裝很多庫，包括 Librosa、Numpy、Scipy 等，這些庫用於音頻信號處理、分析和操作。

我們還安裝了 Pydub，它用於操作音頻文件，提供了一個易於使用的界面，可以進行剪切、複製和粘貼音頻片段等任務。你可能不需要用到所有功能，但安裝完整的庫套件總是好的。安裝已經完成了。

**最後，**我們還安裝 FFmpeg，

因爲我使用的是 conda 環境，所以我會通過命令將它鏈接到 conda。FFmpeg 是一個強大的開源多媒體框架，用於處理、轉換和流式傳輸音頻和視頻文件。

再安裝一下 jupyter 開發環境

ok，現在，所有前置條件都已經安裝完成了。

現在我們導入庫文件，

然後下載這個 Qwen2 Audio 7B Instruct 模型。

模型已經快下載完了，現在正在加載到我們的 GPU 中。讓我們等待它加載完成，模型和分詞器都已經加載好了。

現在讓我們指定我們的音頻文件並處理它們。如果你看這裏，我們正在使用類似 ChatML 的提示模板。這是一個對話，其中有一個音頻文件的 URL，然後我們設置了一個提示，表示這是用戶、這是助手，然後這是用戶的內容。

當然，你也可以使用你自己的音頻文件，或者你可以圍繞它構建一個應用程序，你可以流式傳輸音頻文件，保存在本地系統中，加載它然後使用它。

在加載時你可以看到我們只是應用了這個聊天模板，然後創建了一個叫做 audio 的列表。

接着我們循環遍歷它，使用我之前解釋過的 Librosa 庫，將其加載到我們的數組中，然後傳遞給模型處理器，最後將其加載到 GPU 中。

讓我運行它，已經完成了。

接下來，我們將生成的 tokens 傳遞給模型，然後模型會生成輸出，我們將對其進行解碼並打印響應。

好了，模型已經給出了響應，是中文翻譯的輸出，這是我們在提示中要求的。

所以效果很好。當然你可以使用你自己的音頻文件。

此外你還可以進行批量輸入，你可以流式傳輸音頻，但這取決於你的使用場景，然後你可能需要調整你的應用程序，這個模型支持所有這些功能。

而且你還可以使用任何形式的語音輸入。這個模型的工作方式是語音被分成 40 毫秒的塊，然後模型會預測下一個 40 毫秒的塊對應的 token，就像你在文本處理中預測下一個 token 一樣。

因此，這個模型發佈非常有意義，未來可能會有更多的應用場景。例如，有人可能會嘗試使用這個模型來合成音頻輸出。因爲音頻編碼器似乎與 OpenAI 的 Whisper 模型非常相似。

我認爲這個 Qwen2 模型使用了 Whisper Large V3，這可能需要重新訓練 Whisper 的語音聲學模型，但我可能錯了，因爲頁面上沒有太多的架構信息。

但好消息是，他們分享了一些代碼塊，你可以直接使用這些代碼塊進行批量輸入處理。所以在音頻大型語言模型方面，這是一個不錯的補充。

我可以預見到這個多媒體模型在各種 AI 應用中的潛力。

🌟希望這篇文章對你有幫助，感謝閱讀！

視頻教程

https://www.youtube.com/watch?v=ioFVUsX-hqo

參考鏈接：
[1] huggingface：https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/bhuKZmqP2b0bnr4XGDoJ8Q