TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation
TurboTalk 透過雙階段漸進式蒸餾與自我比較正則化,達成 120 倍推論加速的單步數位人影片生成。
- 將多步擴散模型拆分為 DMD 蒸餾與漸進式對抗蒸餾兩階段,突破單步生成的訓練不穩定瓶頸。
- 導入動態時間步採樣與 4 步模型產生的中繼參考樣本,有效引導單步學生模型收斂。
- 在 1-NFE 極端條件下達成 120 倍加速,且依舊能保持高畫質視覺細節與準確的唇音同步。
透過將複雜多步擴散模型壓縮至單步推論,TurboTalk 成功將音訊驅動的數位人影片生成速度提升 120 倍。傳統模型耗費大量算力進行數十步降噪,導致極高延遲。研究團隊提出雙階段漸進式蒸餾框架,解決了極端步數壓縮下的訓練崩潰難題,讓單步生成高畫質虛擬人像成為可能。
InfiniteTalk 等多步擴散模型的百步運算延遲瓶頸
音訊驅動的數位人影片生成,核心目標是直接從語音訊號合成逼真且時間連貫的影像。近期基於擴散(Diffusion)技術的影片生成模型,如 Wan2.2-S2V 與 InfiniteTalk,在視覺細節與臉部動態表現上取得了顯著進展。然而,這些高擬真影像的代價是極為昂貴的推論成本。
現有模型通常需要進行數十至上百步的降噪程序,並搭配無分類器引導,產生了難以忽視的運算負載。以擁有 140 億參數的 InfiniteTalk 為例,生成單一影片片段需要約 120 次 NFE(神經網路函數評估,衡量推論計算次數的指標),導致嚴重的延遲。這類效能瓶頸直接阻礙了虛擬主播、遠端臨場或即時視訊通訊等需要超低延遲運算的落地應用。
TurboTalk 雙階段蒸餾與 4 步學生模型建構
為了克服長降噪軌跡帶來的推論成本,模型蒸餾成為加速生成的有效手段。直接將多步模型壓縮成單步,會因為學生與老師模型之間的資料分佈差異過大,導致訓練過程極不穩定。研究團隊提出了 TurboTalk 雙階段漸進式蒸餾框架來應對這項挑戰。
在第一階段,團隊採用了 DMD(分佈匹配蒸餾,藉由對齊預測分佈來加速的技術),將多步的老師模型初步壓縮成 4 步的學生模型。這個階段會訓練一個輔助的評論家網路(Critic network)來估算生成分佈的分數函數,並透過最小化 KL 散度(測量兩個機率分佈差異的指標)來進行最佳化。此步驟確保了模型能在保留原始大模型生成品質的前提下,獲得一個強大且穩定的 4 步加速基準。
從 4 步壓縮至單步推論的漸進式對抗蒸餾機制
建立 4 步模型後,若要進一步壓縮至即時生成所需的單步推論,依舊面臨鑑別器過早收斂與梯度消失的風險。框架的第二階段導入了漸進式對抗蒸餾策略,將降噪步數從 4 步依序遞減至 3 步、2 步,最終達到單步。
這套遞減策略依賴動態時間步採樣(Dynamic Timestep Sampling)來維持穩定。在每個縮減階段的預熱期,系統會隨機擾動目標時間步,而非將其鎖定在固定的縮減數值上。這種做法強迫模型在更寬廣的時間步範圍內學習降噪行為,有效緩解了步數驟降帶來的訓練不穩定性。每個訓練階段只減少一個降噪步數,確保相鄰階段的品質落差處於可控範圍,讓鑑別器能持續提供有意義的優化梯度。
導入 4 步參考樣本與 R3GAN 對抗訓練機制
單純依賴對抗真實數據,容易使極低步數的學生模型偏離原始多步模型的生成分佈,導致畫面品質失控。為此,團隊設計了自我比較正則化(Self-Compare Regularization)機制。除了與 EMTD 等資料集的真實影片進行對抗訓練外,單步學生模型還必須與 4 步模型生成的高品質參考樣本進行對齊。
這項設計提供了一個介於真實數據與學生當前輸出之間的中間監督訊號,大幅降低了從頭最佳化的難度。在對抗損失函數的選擇上,研究採用了 R3GAN(一種比較樣本相對真實度的對抗網路架構),並針對真實樣本、單步生成樣本以及 4 步參考樣本全面套用正則化懲罰。消融實驗數據顯示,在自我比較權重參數設為 50 的情況下,模型能達成視覺知覺品質與嘴型同步的最佳平衡。
1-NFE 條件下超越基線模型的 120 倍推論加速
實驗結果證實了該漸進式框架在極端算力壓縮下的強健性。在評估指標上,無論是衡量視覺品質的 FVD(Fréchet Video Distance),還是評估唇音同步的 Sync-C,TurboTalk 在 1-NFE 設定下的表現,甚至能與自家的 4-NFE 版本匹敵。對比原本需要 120 步 NFE 的 InfiniteTalk,該方法直接實現了 120 倍的推論加速。
對比現有的少步數加速方案如 LiveAvatar 與 SoulX-FlashTalk,它們在逼近 1-NFE 時往往會喪失高階語意控制能力,產生模糊的表情或結構崩壞的四肢。TurboTalk 不僅能維持豐富的頭部轉動,更能根據語音變化生成連貫且多樣的手部姿勢。即使參考影像缺乏明確的手部資訊,該模型依舊能利用擴散先驗生成色彩與外觀一致的自然手部區域,展現出高保真度與動作合成能力。
漸進式蒸餾結合動態時間步與自我比較中繼點,為擴散模型在超低算力條件下實現單步即時生成,指出了穩定可行的工程路徑。