Qwen2 Audio 7B:最新!阿里開源語音交互大模型 !(本地部署教程)

Aitrainee | 公衆號:AI 進修生

Hi,這裏是 Aitrainee,歡迎閱讀本期新文章。

在本文中,我們將本地安裝這個由阿里推出的全新 Qwen 模型,它是一個名爲 Qwen2 Audio 7B Instruct 的音頻處理模型。

這個模型非常適用於音頻分析和處理,此外你還可以將它集成到 NLP 管道中。

它能夠接受各種音頻信號輸入,並執行音頻分析或針對語音指令給出直接的文本響應。這個模型提供了兩種不同的音頻交互模式。

第一種模式是語音聊天模式,你可以自由地進行語音交互,即使不輸入任何文本也可以。你可以流式傳輸你的語音,它會將其轉換爲音頻。

第二種音頻分析模式,你可以直接提供音頻和文本指令,例如一個 wav 文件,它會進行音頻分析並根據分析結果給出輸出。

阿里同時也推出了一個微調版的 Instruct 模型,我們將安裝這個 Instruct 模型。

創建一個 conda 環境並激活它。

讓我們等待環境安裝完成,然後我們將開始安裝所需的前置軟件。

首先,我安裝了 PyTorch,

然後我還將從源代碼安裝 Transformers 庫,因爲這個模型非常新,PyPI 上還沒有提供這個版本。

讓我們等待這個安裝完成,PyTorch 已經安裝完成,它是一個基礎的深度學習庫。

接着,我們安裝 Transformers 庫,

我是從 GitHub 安裝的,即從源代碼安裝。這是一個用於自然語言處理任務的基礎庫,主要用於文本生成和分類。

讓我們等待它安裝完成,這個庫不大,只需要幾秒鐘。現在安裝完成了。

**接下來,**我們安裝 Hugging Face Hub 和 Accelerate 庫。

Hugging Face Hub 用於訪問 Hugging Face 平臺,Accelerate 用於優化模型。兩個庫都已安裝完成。

現在讓我們安裝一些輔助庫,我將一次性粘貼所有命令來加快速度。你看到我們正在安裝很多庫,包括 Librosa、Numpy、Scipy 等,這些庫用於音頻信號處理、分析和操作。

我們還安裝了 Pydub,它用於操作音頻文件,提供了一個易於使用的界面,可以進行剪切、複製和粘貼音頻片段等任務。你可能不需要用到所有功能,但安裝完整的庫套件總是好的。安裝已經完成了。

**最後,**我們還安裝 FFmpeg,

因爲我使用的是 conda 環境,所以我會通過命令將它鏈接到 conda。FFmpeg 是一個強大的開源多媒體框架,用於處理、轉換和流式傳輸音頻和視頻文件。

再安裝一下 jupyter 開發環境

ok,現在,所有前置條件都已經安裝完成了。

現在我們導入庫文件,

然後下載這個 Qwen2 Audio 7B Instruct 模型。

模型已經快下載完了,現在正在加載到我們的 GPU 中。讓我們等待它加載完成,模型和分詞器都已經加載好了。

現在讓我們指定我們的音頻文件並處理它們。如果你看這裏,我們正在使用類似 ChatML 的提示模板。這是一個對話,其中有一個音頻文件的 URL,然後我們設置了一個提示,表示這是用戶、這是助手,然後這是用戶的內容。

當然,你也可以使用你自己的音頻文件,或者你可以圍繞它構建一個應用程序,你可以流式傳輸音頻文件,保存在本地系統中,加載它然後使用它。

在加載時你可以看到我們只是應用了這個聊天模板,然後創建了一個叫做 audio 的列表。

接着我們循環遍歷它,使用我之前解釋過的 Librosa 庫,將其加載到我們的數組中,然後傳遞給模型處理器,最後將其加載到 GPU 中。

讓我運行它,已經完成了。

接下來,我們將生成的 tokens 傳遞給模型,然後模型會生成輸出,我們將對其進行解碼並打印響應。

好了,模型已經給出了響應,是中文翻譯的輸出,這是我們在提示中要求的。

所以效果很好。當然你可以使用你自己的音頻文件。

此外你還可以進行批量輸入,你可以流式傳輸音頻,但這取決於你的使用場景,然後你可能需要調整你的應用程序,這個模型支持所有這些功能。

而且你還可以使用任何形式的語音輸入。這個模型的工作方式是語音被分成 40 毫秒的塊,然後模型會預測下一個 40 毫秒的塊對應的 token,就像你在文本處理中預測下一個 token 一樣。

因此,這個模型發佈非常有意義,未來可能會有更多的應用場景。例如,有人可能會嘗試使用這個模型來合成音頻輸出。因爲音頻編碼器似乎與 OpenAI 的 Whisper 模型非常相似。

我認爲這個 Qwen2 模型使用了 Whisper Large V3,這可能需要重新訓練 Whisper 的語音聲學模型,但我可能錯了,因爲頁面上沒有太多的架構信息。

但好消息是,他們分享了一些代碼塊,你可以直接使用這些代碼塊進行批量輸入處理。所以在音頻大型語言模型方面,這是一個不錯的補充。

我可以預見到這個多媒體模型在各種 AI 應用中的潛力。

🌟希望這篇文章對你有幫助,感謝閱讀!

視頻教程

https://www.youtube.com/watch?v=ioFVUsX-hqo

參考鏈接:
[1] huggingface:https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/bhuKZmqP2b0bnr4XGDoJ8Q