Hierarchical Codec Diffusion for Video-to-Speech Generation

Jiaxin Ye, Gaoxiang Cong, Chenhui Wang, Xin-Cheng Wen, Zhaoyang Li, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

導入語音階層先驗的 HiCoDiT 模型,精準還原無聲影片,取得 57% 偏好勝率。

  • 運用分層離散標記,將視覺特徵依據語義與情感韻律解耦並注入模型。
  • 首創雙尺度自適應層歸一化,同步掌控全域講者音色與局部動態韻律。
  • 於零樣本基準測試展現高保真語音,盲測取得 57% 的壓倒性偏好勝率。

復旦大學與中科院提出 HiCoDiT 階層式擴散模型,首度將語音階層先驗引入無聲影片轉語音任務。模型經 261.5 小時訓練,有效解決跨模態不對稱,並在盲測中取得 57.0% 的壓倒性偏好勝率。

突破影片轉語音的跨模態對齊與 RVQ 階層

傳統的影片轉語音技術(VTS)旨在僅依靠視覺線索合成語音,這在無聲電影配音、失聲者輔助溝通或抗噪人機互動中具有巨大潛力。然而,視覺特徵(如唇部動作、面部表情)天生較為稀疏,難以直接對齊密度極高的聲學表徵,這構成了該領域的核心挑戰。過去的方法多半將語音視為扁平的單一序列,強行把唇動、身份與情緒特徵塞入整體的語音表徵中。這種做法忽略了語音本質上的階層結構——從粗略的語義內容、講者音色,到細緻的情感韻律變化,導致生成的語音在自然度與唇形同步上難以達到理想標準,最終加劇了視覺與聽覺特徵間的資訊不對稱。

為了解決這項挑戰,研究團隊透過殘差向量量化(Residual Vector Quantization, RVQ)編解碼器的分層架構來拆解語音。在 RVQ 系統中,低層級(Low-level)的離散語音標記(Discrete speech tokens)主要捕捉豐富的語義與講者身份等粗粒度內容;相反地,高層級(High-level)的標記則負責編碼更抽象、細緻的聲學韻律細節。HiCoDiT 的核心概念便是讓視覺特徵「各司其職」,將唇動與面部身份導向低層級標記,而將面部情緒特徵導向高層級標記,藉此透過明確的先驗知識來引導生成模型。

解耦視覺條件的 HiCoDiT 擴散模型架構

基於上述的語音階層先驗,研究團隊設計出全新的「階層式編解碼擴散變換器」——HiCoDiT。這套框架不僅採用離散擴散模型(Discrete Diffusion Models, DDM)來取代運算耗時的連續模型,更將視覺條件的注入過程徹底解耦。具體而言,模型包含 8 個低層級區塊與 8 個高層級區塊,針對不同深度的 12 層 RVQ 離散語音標記進行漸進式的去噪生成,並採用去噪分數熵(Denoising Score Entropy, DSE)做為優化目標,計算從遮罩狀態過渡到有效標記的機率分佈。

在低層級區塊中,HiCoDiT 使用 AV-HuBERT 提取的最後一層隱藏狀態作為唇動特徵,並採用 ArcFace 提取的面部身份特徵作為條件。由於唇動與對話內容具有強烈的逐格對齊特性,模型透過通道維度的特徵拼接直接強化低層次標記的生成,藉此還原清晰的詞彙與發音。而在高層級區塊,研究人員導入了基於 Poster2 面部表情辨識模型所提取的情感特徵。為了避免過度的身份偏差干擾,這些特徵被時間平滑處理為每 0.5 秒一個窗口的序列,專門用以調節高層次的語音標記,為生成的聲音注入自然的情感波動與韻律變化。

雙尺度 AdaLN 還原全域音色與動態韻律

為確保情感與音色特徵能平滑地融合進生成過程中,HiCoDiT 針對類別屬性的條件注入機制進行了深度優化。在音色控制上,由於講者的身份特徵屬於不隨時間劇烈變化的全域屬性,模型利用多層感知機將視覺身份特徵轉換為尺度與位移參數,應用於單尺度的自適應層歸一化(AdaLN)中,藉此維持講者音色的一致性。此外,訓練過程中更額外引入了 GE2E(Generalized End-to-End)聲學特徵距離做為身份對齊損失函數,強制視覺身分表徵與聲學表徵拉近。

更關鍵的創新在於高層級情感特徵的處理。為了精準捕捉韻律,研究團隊提出了「雙尺度自適應層歸一化(Dual-scale AdaLN)」技術。這套機制分為兩個維度:首先是通道級別的歸一化,其主要任務是建模全域的發聲風格;其次是時間級別的歸一化,專門對齊每 50 Hz 採樣率下的局部韻律動態。實作上,模型會將平滑過的情緒標籤上採樣,並與隱藏層特徵進行克羅內克積(Kronecker product)運算。這種解耦處理讓 HiCoDiT 既能維持穩定的情緒基調,又能精準還原說話時語氣的高低起伏。

零樣本 LRS3 基準測試展現 57% 偏好勝率

在實證表現上,HiCoDiT 展現出優異的泛化能力與合成品質。研究團隊使用了高達 261.5 小時、包含 3,438 位講者與 7 種基本情緒的 VoxCeleb2 影音資料集進行從零開始的訓練,並在完全未參與訓練的 LRS2 與 LRS3 野外資料集上進行零樣本測試。客觀數據顯示,模型在整體語音品質測量(UTMOS 高達 3.23)、語音可懂度(WER)以及代表唇形同步距離的 LSE-C 指標上,皆全面領先現有的 FTV、AlignDiT 與 EmoDubber 等基準模型。

在主觀評測方面,研究引入了涵蓋自然度、表現力與唇形同步率的五點量表(MOS)調查。HiCoDiT 獲得最高的自然度評分(3.17)與唇形同步評分(3.50),在與開源基準模型 AlignDiT 的盲測中更取得了 57.0% 的使用者偏好勝率。消融實驗進一步證實,若在優化目標中移除 GE2E 身份對齊損失函數,講者的身分相似度會從 56.78% 驟降至 34.10%,凸顯了跨模態特徵映射的絕對必要性。即使在 CinePile 這種複雜的真實電影測試集中,該模型依然維持穩健的合成能力。

結合離散語音標記的階層特性與雙尺度條件注入機制,不僅消弭了影音間的資訊不對稱,更為無聲影片的高保真語音還原樹立了全新技術基準。

Abstract

Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the hierarchical nature of speech, which spans coarse speaker-aware semantics to fine-grained prosodic details. This oversight hinders direct alignment between visual and speech features at specific hierarchical levels during property matching. In this paper, leveraging the hierarchical structure of Residual Vector Quantization (RVQ)-based codec, we propose HiCoDiT, a novel Hierarchical Codec Diffusion Transformer that exploits the inherent hierarchy of discrete speech tokens to achieve strong audio-visual alignment. Specifically, since lower-level tokens encode coarse speaker-aware semantics and higher-level tokens capture fine-grained prosody, HiCoDiT employs low-level and high-level blocks to generate tokens at different levels. The low-level blocks condition on lip-synchronized motion and facial identity to capture speaker-aware content, while the high-level blocks use facial expression to modulate prosodic dynamics. Finally, to enable more effective coarse-to-fine conditioning, we propose a dual-scale adaptive instance layer normalization that jointly captures global vocal style through channel-wise normalization and local prosody dynamics through temporal-wise normalization. Extensive experiments demonstrate that HiCoDiT outperforms baselines in fidelity and expressiveness, highlighting the potential of discrete modelling for VTS. The code and speech demo are both available at https://github.com/Jiaxin-Ye/HiCoDiT.