Hierarchical Codec Diffusion for Video-to-Speech Generation
導入語音階層先驗的 HiCoDiT 模型,精準還原無聲影片,取得 57% 偏好勝率。
- 運用分層離散標記,將視覺特徵依據語義與情感韻律解耦並注入模型。
- 首創雙尺度自適應層歸一化,同步掌控全域講者音色與局部動態韻律。
- 於零樣本基準測試展現高保真語音,盲測取得 57% 的壓倒性偏好勝率。
復旦大學與中科院提出 HiCoDiT 階層式擴散模型,首度將語音階層先驗引入無聲影片轉語音任務。模型經 261.5 小時訓練,有效解決跨模態不對稱,並在盲測中取得 57.0% 的壓倒性偏好勝率。
突破影片轉語音的跨模態對齊與 RVQ 階層
傳統的影片轉語音技術(VTS)旨在僅依靠視覺線索合成語音,這在無聲電影配音、失聲者輔助溝通或抗噪人機互動中具有巨大潛力。然而,視覺特徵(如唇部動作、面部表情)天生較為稀疏,難以直接對齊密度極高的聲學表徵,這構成了該領域的核心挑戰。過去的方法多半將語音視為扁平的單一序列,強行把唇動、身份與情緒特徵塞入整體的語音表徵中。這種做法忽略了語音本質上的階層結構——從粗略的語義內容、講者音色,到細緻的情感韻律變化,導致生成的語音在自然度與唇形同步上難以達到理想標準,最終加劇了視覺與聽覺特徵間的資訊不對稱。
為了解決這項挑戰,研究團隊透過殘差向量量化(Residual Vector Quantization, RVQ)編解碼器的分層架構來拆解語音。在 RVQ 系統中,低層級(Low-level)的離散語音標記(Discrete speech tokens)主要捕捉豐富的語義與講者身份等粗粒度內容;相反地,高層級(High-level)的標記則負責編碼更抽象、細緻的聲學韻律細節。HiCoDiT 的核心概念便是讓視覺特徵「各司其職」,將唇動與面部身份導向低層級標記,而將面部情緒特徵導向高層級標記,藉此透過明確的先驗知識來引導生成模型。
解耦視覺條件的 HiCoDiT 擴散模型架構
基於上述的語音階層先驗,研究團隊設計出全新的「階層式編解碼擴散變換器」——HiCoDiT。這套框架不僅採用離散擴散模型(Discrete Diffusion Models, DDM)來取代運算耗時的連續模型,更將視覺條件的注入過程徹底解耦。具體而言,模型包含 8 個低層級區塊與 8 個高層級區塊,針對不同深度的 12 層 RVQ 離散語音標記進行漸進式的去噪生成,並採用去噪分數熵(Denoising Score Entropy, DSE)做為優化目標,計算從遮罩狀態過渡到有效標記的機率分佈。
在低層級區塊中,HiCoDiT 使用 AV-HuBERT 提取的最後一層隱藏狀態作為唇動特徵,並採用 ArcFace 提取的面部身份特徵作為條件。由於唇動與對話內容具有強烈的逐格對齊特性,模型透過通道維度的特徵拼接直接強化低層次標記的生成,藉此還原清晰的詞彙與發音。而在高層級區塊,研究人員導入了基於 Poster2 面部表情辨識模型所提取的情感特徵。為了避免過度的身份偏差干擾,這些特徵被時間平滑處理為每 0.5 秒一個窗口的序列,專門用以調節高層次的語音標記,為生成的聲音注入自然的情感波動與韻律變化。
雙尺度 AdaLN 還原全域音色與動態韻律
為確保情感與音色特徵能平滑地融合進生成過程中,HiCoDiT 針對類別屬性的條件注入機制進行了深度優化。在音色控制上,由於講者的身份特徵屬於不隨時間劇烈變化的全域屬性,模型利用多層感知機將視覺身份特徵轉換為尺度與位移參數,應用於單尺度的自適應層歸一化(AdaLN)中,藉此維持講者音色的一致性。此外,訓練過程中更額外引入了 GE2E(Generalized End-to-End)聲學特徵距離做為身份對齊損失函數,強制視覺身分表徵與聲學表徵拉近。
更關鍵的創新在於高層級情感特徵的處理。為了精準捕捉韻律,研究團隊提出了「雙尺度自適應層歸一化(Dual-scale AdaLN)」技術。這套機制分為兩個維度:首先是通道級別的歸一化,其主要任務是建模全域的發聲風格;其次是時間級別的歸一化,專門對齊每 50 Hz 採樣率下的局部韻律動態。實作上,模型會將平滑過的情緒標籤上採樣,並與隱藏層特徵進行克羅內克積(Kronecker product)運算。這種解耦處理讓 HiCoDiT 既能維持穩定的情緒基調,又能精準還原說話時語氣的高低起伏。
零樣本 LRS3 基準測試展現 57% 偏好勝率
在實證表現上,HiCoDiT 展現出優異的泛化能力與合成品質。研究團隊使用了高達 261.5 小時、包含 3,438 位講者與 7 種基本情緒的 VoxCeleb2 影音資料集進行從零開始的訓練,並在完全未參與訓練的 LRS2 與 LRS3 野外資料集上進行零樣本測試。客觀數據顯示,模型在整體語音品質測量(UTMOS 高達 3.23)、語音可懂度(WER)以及代表唇形同步距離的 LSE-C 指標上,皆全面領先現有的 FTV、AlignDiT 與 EmoDubber 等基準模型。
在主觀評測方面,研究引入了涵蓋自然度、表現力與唇形同步率的五點量表(MOS)調查。HiCoDiT 獲得最高的自然度評分(3.17)與唇形同步評分(3.50),在與開源基準模型 AlignDiT 的盲測中更取得了 57.0% 的使用者偏好勝率。消融實驗進一步證實,若在優化目標中移除 GE2E 身份對齊損失函數,講者的身分相似度會從 56.78% 驟降至 34.10%,凸顯了跨模態特徵映射的絕對必要性。即使在 CinePile 這種複雜的真實電影測試集中,該模型依然維持穩健的合成能力。
結合離散語音標記的階層特性與雙尺度條件注入機制,不僅消弭了影音間的資訊不對稱,更為無聲影片的高保真語音還原樹立了全新技術基準。