ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning

Junyi Wang, Chi Zhang, Jing Qian, Haifeng Luo, Hao Wang, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

僅需 200 bps 頻寬,強化學習編碼器即可達成 3.20% 極低字錯率。

  • 運用降採樣與殘差量化,達成 200 bps 極限語音壓縮傳輸。
  • 導入 GRPO 強化學習,將量化轉為隨機策略以直接優化字錯率。
  • 實測字錯率僅 3.20%,在維持品質下擊敗雙倍頻寬基準模型。

在衛星通訊與水下探測等極端環境中,傳輸語音的資料額度往往被壓縮至每秒僅 200 bps。清華大學與華為聯合提出的 ClariCodec 神經語音編碼器,透過導入強化學習(RL)技術將語音壓縮至此極限,並在 LibriSpeech 測試集中達成 3.20% 的字錯率(WER)。該系統成功在耗用頻寬少一半的情況下,使語意辨識度超越了頻寬需求達 400 bps 的現有基準模型。

傳統神經編碼器在 200 bps 頻寬下的語義瓶頸

過去幾年,神經網路模型被廣泛應用於語音編碼領域,這些系統通常採用「編碼器-量化器-解碼器」架構,將輸入波形轉換為緊湊的離散標記序列。高保真度(High-fidelity)的編碼器主要專注於保留細緻的聲學細節;而另一派語意編碼器(Semantic codecs)則利用自監督學習或自動語音辨識(ASR)模型來提取語言特徵。然而,當傳輸限制逼近幾百 bps 的極端壓縮條件時,這兩種訓練典範都面臨了嚴重的效能衰退。

面臨頻寬極度受限的挑戰時,位元分配往往會與真正決定「可理解性」的核心資訊產生錯位。根據資訊瓶頸原理(Information bottleneck principle),口說語言本身包含大量的統計冗餘,傳達語言意義所需的資訊量,遠小於記錄說話者音色、環境噪音或空間殘響所需的完整聲學訊號頻寬。因此,一個有效的極低頻寬編碼器必須學會大刀闊斧地剔除多餘的聲學細節,僅保留能被人類或機器辨識的核心語義特徵。

常規的重建目標無法強制模型達成這種資料篩選。無論是梅爾頻譜圖的 L1 損失,還是對抗性波形損失,這類指標都將聲學相似度置於首位。用來評估語音可理解性的主流標準是字錯率,但這是一個離散且不可微(non-differentiable)的指標。現有訓練框架無法將不可微的字錯率直接納入損失函數,導致系統難以把珍貴的位元額度投資在對語意解碼最關鍵的特徵上。

ClariCodec 架構:10 Hz 幀率與極限資料壓縮

為解決極端壓縮難題,研究團隊設計出能將時間解析度大幅度降採樣的網路結構。系統輸入的對數梅爾頻譜圖以 200 個樣本點(12.5 毫秒)的步長進行特徵提取。基於 ConvNeXt V2 架構的編碼器透過三個連續的下採樣層,將時間解析度縮減至八分之一,最終輸出幀率僅有 10 Hz 的潛在特徵表示(Latent representation)。解碼器端則透過對稱的上採樣區塊還原頻譜圖,並由從頭訓練的 Vocos 聲碼器(負責將聲學特徵轉換回音訊波形的模型)生成最終波形。

達成 200 bps 的關鍵在於一套名為殘差有限純量量化(R-FSQ)的模組。該模組包含兩層殘差層,每一層的層級維度設定為 [8, 5, 5, 5],對應每一層有效的編碼空間為 10 位元。在 10 Hz 的潛在幀率基礎上,每幀佔用 20 位元,系統藉此將整體資料量精準鎖定在 10 Hz × 20 bits = 200 bps

為了讓量化過程維持穩定,架構中整合了兩項關鍵技術改良。第一項是引入改進版本的 FSQ,將傳統的雙曲正切邊界函數替換為分佈匹配的 sigmoid 啟動函數,藉此最大化密碼本(Codebook)的使用率。第二項則是可逆層正規化(ILN),在量化之前對殘差進行正規化,隨後再將轉換反轉回來,這項機制能有效避免訊號特徵在多個殘差層之間發生量級衰減問題。

導入 GRPO 強化學習優化字錯率的兩階段訓練

這項研究最顯著的突破,是將離散的編碼器量化過程重新定義為可透過強化學習最佳化的「隨機策略」。在第一階段的重建預訓練中,模型會先最小化包含重建、對抗網路與特徵匹配等多重損失,以建立穩定的離散表徵與基礎的聲學品質。進入第二階段後,量化器、解碼器與聲碼器的所有參數將被徹底凍結,確保離散標記到波形的聲學映射關係維持不變。

捨棄傳統的決定性四捨五入法,編碼器不再直接將數值靠攏至最近的量化層級,而是計算輸入特徵與網格點之間的負平方距離作為邏輯值(Logits),並透過 Gumbel-Softmax 分佈進行隨機採樣。這種隨機公式讓量化器轉變為一個可微分的策略網路,使編碼器能在固定的聲學空間內,探索在語意上更具優勢的離散標記排列組合。

訓練團隊採用了群組相對策略最佳化(GRPO,一種常用於最佳化語言模型的強化學習演算法),將重構波形與真實波形經由 ASR 模型轉錄後的字錯率差異,直接轉化為獎勵訊號。每一次輸入都會從隨機量化器中採樣出 16 組離散標記序列,並將單一序列的獎勵標準化為相對優勢(Advantage)。如此一來,系統便能繞開字錯率不可微的限制,直接朝向「提升語音可理解性」的方向進行梯度更新。

燒蝕實驗與展望:聲學錨點與 ILN 的穩定作用

僅靠強化學習進行優化,容易引發過度擬合語意而犧牲聽覺品質的副作用。為了防止模型為了追求極致的字錯率而喪失原有的說話者特徵,系統在第二階段額外加入了一項梅爾重建損失(Mel reconstruction loss)作為聲學錨點。實驗數據證實,若單純依賴 RL 損失,語音感知品質(PESQ)會從 2.05 下滑至 1.91,說話者相似度(SIM)也會衰退;加入聲學錨點後,PESQ 得以回升至 1.98,在幾乎不影響字錯率的前提下維持了語音的真實感。

底層網路架構的穩定性同樣受到嚴格檢驗。燒蝕實驗顯示,如果移除可逆層正規化(ILN)機制,系統無論在語意保留或聲學品質上都會遭遇毀滅性的打擊。在未搭載 ILN 的情況下,字錯率從 3.68% 暴增至 10.5%,PESQ 分數也銳減至 1.56。這突顯出在極端位元率下,ILN 對於防止特徵空間崩塌具有不可或缺的防護作用。

針對未來的開發藍圖,研究團隊列出了三項後續目標。首先是解決當前非因果架構帶來的延遲問題,開發具備極短上下文且低延遲的串流編碼器,以對應即時通訊應用。其次是評估這類超低頻寬編碼器對下游生成式任務的影響,包含語音合成與基於編碼器的語音大型語言模型。最後,團隊計畫將聲學品質指標一併納入強化學習的獎勵訊號中,尋求更全面的系統綜合表現。

LibriSpeech 實測:200 bps 擊敗雙倍頻寬基準

實測數據清楚展現了 ClariCodec 將資源集中於語意的設計優勢。在 LibriSpeech 大型資料集的 test-clean 子集中,尚未導入強化學習的初代模型便已繳出 3.68% 的優異字錯率。經過第二階段的強化學習微調後,字錯率進一步下降至 3.20%,在 test-other 子集也從 9.97% 降至 8.93%,整體相對錯誤率減少了約 13%

這項成績在業界現有模型中尤為突出。對比運作在更高頻寬的開源架構,StableCodec 在 400 bps 下的字錯率為 4.88%;即使是採用第一層殘差向量量化、位元率高達 750 bps 的 EnCodec 模型,依然無法在此項指標上取得絕對優勢。透過嚴格控制每秒僅傳輸 200 位元的資料量,ClariCodec 證明了以語意可理解性為核心的訓練策略,足以彌補物理頻寬的劣勢。

儘管 FlexiCodec 與 SAC 兩款系統在 PESQ 與 SIM 分數上表現較佳,但它們分別運作於 640 bps 與 525 bps,消耗的頻寬高達 ClariCodec 的 2.5 倍以上。而在另一項評估人類聽覺感受的 UTMOS 指標上,ClariCodec 取得了 4.03 的高分,證實其凍結聲學管線的策略奏效,即使大幅調整了標記分佈,依然能產出品質自然的還原音訊。

將不可微的字錯率轉化為強化學習獎勵,證明了即使在極度匱乏的 200 bps 頻寬下,演算法依然能憑藉優化語意優先級,打破硬體條件的物理極限。

Abstract

In bandwidth-constrained communication such as satellite and underwater channels, speech must often be transmitted at ultra-low bitrates where intelligibility is the primary objective. At such extreme compression levels, codecs trained with acoustic reconstruction losses tend to allocate bits to perceptual detail, leading to substantial degradation in word error rate (WER). This paper proposes ClariCodec, a neural speech codec operating at 200 bit per second (bps) that reformulates quantisation as a stochastic policy, enabling reinforcement learning (RL)-based optimisation of intelligibility. Specifically, the encoder is fine-tuned using WER-driven rewards while the acoustic reconstruction pipeline remains frozen. Even without RL, ClariCodec achieves 3.68% WER on the LibriSpeech test-clean set at 200 bps, already competitive with codecs operating at higher bitrates. Further RL fine-tuning reduces WER to 3.20% on test-clean and 8.93% on test-other, corresponding to a 13% relative reduction while preserving perceptual quality.