LEAF：可學習的音頻特徵提取模塊

文 / Neil Zeghidour，Google Research 研究員

過去幾年，在開發音頻理解的機器學習 (ML) 模型上取得長足進步。利用從數據學習參數的能力，該領域已逐步從複雜的手工系統轉向當今的深度神經分類器，用於識別語音、理解音樂或對動物聲音（如鳥叫）進行分類。然而，不同於可從原始像素學習的計算機視覺模型，用於音頻分類的深度神經網絡很少訓練自原始音頻波形。取而代之的是，它們依賴於 mel 濾波器組形式的預處理數據，這些經過手工設計的 mel 比例譜圖可複製人類聽覺響應的某些特徵。

識別語音

https://ai.googleblog.com/2017/12/improving-end-to-end-models-for-speech.html
理解音樂
https://ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html
對動物聲音（如鳥叫）進行分類
https://www.blog.google/technology/ai/competition-identify-bird-calls-using-machine-learning/

雖然爲 ML 任務建模 mel 濾波器組歷來都很成功，但是它會受到固定特徵偏差的限制：儘管通常使用固定 mel 比例和對數壓縮效果很好，我們仍然無法保證當下它們可以給任務提供最好的表現。即使匹配人類感知爲語音識別或音樂理解等應用領域提供了良好的歸納偏差，這些偏差也有可能對模仿人耳並不重要的領域不利，例如識別鯨魚的叫聲。因此，爲了達到最佳性能，mel 濾波器組應根據具體任務進行定製。這會是一個繁瑣的過程，需要在領域知識專家的指導下反覆嘗試。結果，標準 mel 濾波器組雖然在實踐中並非最佳選項，仍被用於大多數音頻分類任務。此外，儘管研究人員已經提出 ML 系統應對這些問題，如時域濾波器組，SincNet 和 Wavegram，但它們的性能還無法與傳統 mel 濾波器組相媲美。

識別鯨魚的叫聲
https://ai.googleblog.com/2018/10/acoustic-detection-of-humpback-whales.html

在 ICLR 2021 的 “LEAF, A Fully Learnable Frontend for Audio Classification” 中，我們提出了一種爲音頻理解任務製作可學習譜圖的替代方法。LEarnable Audio Frontend (LEAF) 是一個神經網絡，可以被初始化爲類 mel 濾波器組並與任何音頻分類器聯合訓練以適應任務，同時只在完整模型中添加少量參數。在語音、音樂和鳥鳴等廣泛的音頻信號和分類任務中，我們發現 LEAF 譜圖都比固定 mel 濾波器組和先前的可學習系統具有更高的分類性能。我們已經在 TensorFlow 2 中實現了代碼，並通過 GitHub 倉庫向社區發佈。

LEAF, A Fully Learnable Frontend for Audio Classification
https://arxiv.org/abs/2101.08596
TensorFlow 2
https://tensorflow.google.cn/guide
GitHub 倉庫
https://github.com/google-research/leaf-audio

Mel 濾波器組：模仿人類對聲音的感知

在 mel 濾波器組的傳統創建方法中，第一步是通過加窗捕獲聲音的時變性，即將信號切割成固定持續時間的短段。然後，將加窗的片段通過固定頻率濾波器組進行濾波，複製人類對音高的對數敏感度。因爲我們對低頻的變化比高頻更敏感，所以 mel 濾波器組更重視聲音的低頻範圍。最後，音頻信號被壓縮，模仿耳朵對響度的對數敏感度 - 聲音需要將其功率加倍才能讓人感覺到 3 分貝的提升。

LEAF 大致沿用了傳統的 mel 濾波器組生成方法，但由已學習的對應項取代了每一個固定運算（即篩選層、加窗層和壓縮函數）。LEAF 的輸出是一個類似於 mel 濾波器組的時頻表示（頻譜圖），但完全可以學習。因此，舉例來說，當 mel 濾波器組對音高使用固定的音階時，LEAF 會學習最適合對應任務的音階。任何可以使用 mel 濾波器組作爲輸入特徵進行訓練的模型也都可以在 LEAF 譜圖上訓練。

mel 濾波器組與 LEAF 譜圖的計算示意圖對比

LEAF 可以隨機初始化，也可以採用一種近似 mel 濾波器組的方式初始化，這也被證明是一個更好的起點。然後，可以使用任何分類器訓練 LEAF 以適應對應的任務。

左：mel 濾波器組，一個人在說 “wow”；右：LEAF 經過語音指令數據集訓練後，對同一樣本的輸出

固定特徵的高效參數替代方案

如果用可訓練系統替換不涉及可學習參數的固定特徵，一個潛在缺點是它可能會顯著增加需要優化的參數數量。爲了避免這個問題，LEAF 使用 Gabor 卷積層，每個濾波器只有兩個參數，而不是標準卷積層典型的約 400 個參數。這樣一來，即使搭配小型分類器，比如 EfficientNetB0，LEAF 模型也只佔總參數的 0.01%。

上圖：音頻事件分類訓練後的無約束卷積濾波器；下圖：LEAF 濾波器在同一任務訓練後的收斂

Gabor
https://inc.ucsd.edu/mplab/tutorials/gabor.pdf
EfficientNetB0
https://arxiv.org/abs/1905.11946

性能

我們將 LEAF 應用於識別語音命令、說話人識別、聲學場景識別、識別樂器和尋找鳥鳴等各種音頻分類任務。平均而言，LEAF 的表現優於 mel 濾波器組和先前的可學習前端，例如時域濾波器組、SincNet 和 Wavegram。特別是 LEAF 在不同任務上達到了 76.9% 的平均準確率，而 mel 濾波器組的準確率爲 73.9%。此外，我們還證明 LEAF 可以在多任務環境下進行訓練，這樣，單個 LEAF 參數化即可良好運用於所有任務。最後，當與大型音頻分類器相結合時，LEAF 在具有挑戰性的 AudioSet 基準上達到最先進性能，d-prime 得分爲 2.74。

LEAF、mel 濾波器組和先前的可學習譜圖在 AudioSet 評估集上的 d-prime 得分（越高越好）

語音命令
https://tensorflow.google.cn/datasets/catalog/speech_commands
識別樂器
https://magenta.tensorflow.org/nsynth
AudioSet 基準
https://research.google.com/audioset/

結論

從語音癡呆診斷到水下麥克風座頭鯨叫聲的檢測，音頻理解任務的範圍正在不斷擴大。使 mel 濾波器組適應新任務可能需要大量手動調整和試驗。在這種情況下，LEAF 爲這些固定特徵提供了直接替代方案，任務只需最少的特定調整，即可通過訓練適應對應的任務。因此，我們相信 LEAF 可以加快新的音頻理解任務模型的開發。

水下麥克風座頭鯨叫聲的檢測
https://ai.googleblog.com/2018/10/acoustic-detection-of-humpback-whales.html

致謝

我們要感謝合著者 Olivier Teboul、Félix de Chaumont-Quitry 和 Marco Tagliasacchi。還要感謝 Dick Lyon、Vincent Lostanlen、Matt Harvey 和 Alex Park 的實用討論，感謝 Julie Thomas 協助設計了這篇文章的圖表。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/N3CPMzWV2PLgvoRC_5EMbw

猜你喜歡