UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations
UniPASE 透過雙流生成架構解決語音增強幻覺,在 DNS 2020 展現 2.17% 極低字錯率,奪下 URGENT 2025 客觀評測冠軍。
- 採用語意與聲學分離的雙流架構,解決純生成式語音模型常見的字詞錯誤與特徵偏離幻覺。
- 利用 DeWavLM-Omni 與知識蒸餾萃取純淨語意特徵,並透過 Adapter 模組顯式重建聲學細節。
- 透過頻寬擴展與低頻保留技術,成功支援 8 kHz 至 48 kHz 多取樣率,達成極高保真度還原。
在通用語音增強(USE)領域,純生成式模型雖然能提供極高的聽覺品質,卻常伴隨嚴重的「幻覺」問題——產生錯誤字詞或改變說話者特徵。南京大學與地平線機器人團隊提出的 UniPASE 是一個具備 545.7M 參數的生成式架構,成功解決了這個難題。該模型在 URGENT 2025 挑戰賽的客觀評測中奪得第 1 名,證明生成式 AI 可以在涵蓋 7 種不同音訊失真與多種取樣率的情境下,同時實現高保真度與極低幻覺的語音還原。
URGENT 2025 挑戰賽定義的七大音訊失真難題
通用語音增強(Universal Speech Enhancement,簡稱 USE)的目標是從各種不同的輸入格式與失真狀態中,還原出純淨的語音訊號。在最新的 URGENT 2025 挑戰賽中,系統被要求必須能同時處理高達 7 種失真類型,包含背景噪音、殘響、削峰(clipping)、頻寬限制、編解碼器偽影、封包遺失以及風切聲,並且還要支援從 8 kHz 到 48 kHz 不等的彈性輸入取樣率。
面對如此複雜的環境,頂尖的系統多半依賴預測型架構或混合型設計來穩定輸出。相對地,純生成式方法雖然能提供極佳的聽感品質,卻受制於產生語意錯誤與說話者特徵偏離的幻覺瓶頸。為了解決這項痛點,研究團隊以先前的低幻覺 PASE 架構為基礎,將其擴展為處理多重失真場景的全新統一框架 UniPASE。
DeWavLM-Omni 透過知識蒸餾純化語意特徵
UniPASE 系統的核心運作機制分為語意增強與聲學增強兩個階段。第一階段由 DeWavLM-Omni 模組擔綱,該模組以自監督語音模型(大型無標註音訊預訓練模型)WavLM 為骨幹,透過降噪表徵蒸餾策略進行微調。系統會先將不同取樣率的輸入音訊統一重取樣至 16 kHz,接著透過封包遺失偵測演算法找出缺失的音訊幀,並將其替換為可學習的遮罩嵌入向量。
得益於 WavLM 在預訓練階段建立的強大語音先驗知識,它不僅能處理傳統的噪音與殘響,還能藉由上下文推論填補缺失的封包。處理完成後,模型會輸出雙流表徵:一組是去除了大部分失真並保留忠實語言內容的增強語意表徵($R_P$),另一組則是保留說話者身分但尚未經過明確降噪的退化聲學表徵($R_A$)。
引入 Adapter 模組執行顯式聲學細節重建
在早期的架構中,系統會直接將這兩組表徵送入神經聲碼器合成波形。然而團隊發現,在低訊噪比環境下直接合成會導致殘留噪音與殘響滲漏。為了提升最終聽覺品質並維持說話者特徵,UniPASE 引入了一個專門的 Adapter 模組來進行顯式的聲學增強。
這個模組以改進版的 Vocos 網路為基礎,將退化的聲學表徵作為輸入,並以純淨的語意表徵作為條件引導,兩者相加後生成增強版聲學表徵。考慮到從高度抽象的語意特徵中重建精細細節時,只用傳統均方誤差損失函數會造成特徵過度平滑化。因此團隊設計了多尺度表徵鑑別器(MSRD),透過多個具有不同隱藏維度(由 32 至 1024 頻道)的卷積子鑑別器進行對抗性訓練,確保模型能生成結構清晰且細節豐富的聲學特徵。
以 Vocoder 與 PostNet 實現多取樣率合成
取得增強的聲學與語意表徵後,系統接下來交由獨立訓練的 Vocoder 進行波形重建。該模組專門負責合成高品質的 16 kHz 語音,由於訓練時完全使用乾淨語音,確保了合成階段不會受到先前失真特徵的干擾,進一步鞏固輸出的高保真度。
為了滿足挑戰賽要求的彈性取樣率,管線的最後端加入了 PostNet 模組。當目標取樣率高於 16 kHz 時,PostNet 會透過頻寬擴展技術將音訊提升至 48 kHz,隨後再向下取樣至所需頻率。為避免頻寬擴展過程破壞低頻內容音質,系統在推理階段會將頻譜圖中 8 kHz 以下的低頻成分直接複製保留,並在 800 Hz 的交界地帶設置平滑過渡頻帶,確保全頻段音質自然接合。
DNS 2020 數據集實測展現 2.17% 極低字錯率
在效能驗證方面,UniPASE 在多個開源數據集上展現了超越基準的實力。於 DNS 2020 的無殘響測試集中,傳統預測型模型 TF-GridNet 雖然具備 0.94 的說話者相似度(SpkSim),但部分純生成式模型(如 StoRM 和 LLaSE-G1)卻出現明顯語言退化,字錯率(dWER)甚至高於未處理的嘈雜語音。
相比之下,UniPASE 取得了 0.96 的 SpkSim 以及高達 4.06 的 UTMOS 感知品質評分。更值得注意的是,它的 dWER 降至 2.17%,不僅遠低於輸入雜音基線,也是參測生成模型中的最佳表現。在訊號級別的保真度上,UniPASE 的 PESQ 指標達到 3.05,證明了其分離機制成功讓生成式模型在不犧牲真實性的前提下達成極高還原度。
拆分語意純化與聲學重建,讓生成式 AI 得以在通用語音增強任務中,兼顧極致聽覺品質與零幻覺的真實性。