DVFace: Spatio-Temporal Dual-Prior Diffusion for Video Face Restoration

Zheng Chen, Bowen Chai, Rongjun Gao, Mingtao Nie, Xi Li, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

擴散模型修復影片通常極耗算力,DVFace 透過時空雙碼本與非對稱融合架構,僅需 1 步推理即可還原高保真且具連續性的人臉影片。

  • 採用單步擴散架構,捨棄傳統多步採樣,大幅降低影片特有的多幀聯合修復運算延遲。
  • 建立空間與時間雙碼本,將結構紋理與動態演進分別量化為離散潛在特徵以供模型檢索。
  • 獨創非對稱特徵融合,讓時間先驗提供全域調變,空間先驗則經時間精煉後作為殘差注入。

傳統多步擴散模型修復影片往往需要數十到數百次的運算,帶來極高的硬體負擔與推理延遲。DVFace 框架打破了這項限制,僅需 1 步推理就能將充滿雜訊與模糊的低畫質影片,還原為高保真且具備時間一致性的人臉序列。研究團隊透過獨創的時空雙碼本架構,直接從退化影片中提取特徵,成功在極致的運算效率下維持了臉部結構的穩定性。

單步擴散模型突破影片人臉修復延遲瓶頸

影片人臉修復(VFR,從低畫質還原高畫質且連續的人臉序列)是一項極具挑戰性的任務,因為它必須同時解決空間維度的結構崩壞與時間維度的動態失真。多數針對一般影像或影片設計的修復模型,在處理人臉這種對特徵高度敏感的內容時,容易在嚴重退化的情況下失去真實感。導入擴散模型(Diffusion Models)雖然帶來了強大的生成先驗,能大幅提升合成細節的逼真度,但現有方法多依賴多步採樣程序,導致運算成本極高。

將推理過程壓縮至單步的單步擴散模型(One-step diffusion),雖然在靜態圖像生成上取得了進展,但應用於影片領域仍面臨諸多阻礙。影片人臉修復對身份特徵的保留要求極度嚴苛,微小的結構偏差就會造成明顯的「換臉」錯覺。此外,缺乏漸進式降噪的精煉過程,單步模型極易產生閃爍的細節與不穩定的時間偽影。

現有文獻多半依賴隱式或糾纏的特徵表示法,未能明確利用臉部外觀與時間動態的先驗知識。為了克服這些痛點,研究團隊基於預訓練的文字生成影片模型 Wan 2.1,建構了名為 DVFace 的單步擴散框架。該方法的核心在於明確提取輸入影片的結構資訊,讓擴散主幹網路在單步降噪的過程中,能持續受到結構化特徵的引導。

萃取 16,000 部高畫質影片的時空雙碼本

為了提供擴散模型精確的引導,DVFace 引入了「碼本(Codebook,將常見臉部特徵組織成離散的潛在詞彙表)」設計。傳統碼本多僅處理單一圖像的空間資訊,忽略了影片特有的連續性。DVFace 將其擴展為時空雙碼本(Spatio-Temporal Dual-Codebook)架構,分別負責捕捉靜態的臉部結構與動態的幀間變化。

系統首先將低畫質(LQ)輸入影片編碼為潛在特徵(Latent representations)。針對時間維度,模型透過時間自注意力機制與相鄰幀差異計算,提取出包含長距離依賴與運動軌跡的時間潛在特徵。針對空間維度,則利用卷積區塊捕捉局部的外觀模式與細節結構。由於退化影片的特徵容易偏離真實分佈,團隊部署了兩個獨立的 Transformer 來處理這些潛在特徵,以確保能精準對齊到正確的碼本索引。

這組雙碼本是在 VFHQ 資料集包含的 16,000 部高畫質人臉影片上訓練而成。空間碼本學習到了穩定的臉部紋理與五官輪廓,而時間碼本則記錄了表情演進與運動連續性。這兩組互補的特徵,為後續的還原過程提供了極具參考價值的乾淨先驗數據,大幅降低了模型憑空「幻覺」出錯誤特徵的機率。

針對屬性差異設計的非對稱時空特徵融合

雖然時空雙碼本提供了豐富的資訊,但若使用傳統的簡單相加或交叉注意力機制將其注入擴散模型,效果並不理想。空間特徵主要處理像素級的細緻紋理,而時間特徵則編碼了全域的動態風格與連續性。將這兩種截然不同的屬性等同視之,會削弱各自的優勢。因此,DVFace 提出了一套非對稱時空融合(Asymmetric Spatio-Temporal Fusion, ASTF)模組,將其整合至每個擴散 Transformer(DiT)區塊中。

對於時間先驗,模型先執行時空池化(Pooling)取得全域描述符,再透過多層感知機(MLP)預測出一組調變參數。這組參數被用來對輸入特徵進行全域的縮放與位移(Scale and shift)。特別的是,同一組調變參數會共享於所有 DiT 區塊,藉此提供全網路一致的時間偏差,精準引導運動趨勢而不會干擾局部結構的生成。

對於空間先驗,模型將其視為局部殘差細節進行注入。考慮到從退化影片提取的空間特徵仍可能包含不可靠的偽影,DVFace 利用時間特徵對空間細節進行「時間預先精煉」。在交叉注意力機制中,時間先驗被轉換為查詢(Query),而空間先驗則作為鍵(Key)與值(Value)。這種設計確保了只有符合時間連續性且可靠的臉部細節兩者交集,兩兩吻合後才會被注入主幹網路,有效避免了局部偽影的放大。

分階訓練策略與光流引導的時間一致性損失

為了確保龐大的架構能穩定收斂,DVFace 採取了兩階段的訓練流程。第一階段專注於時空雙碼本的先驗學習。模型先利用高畫質影片透過 L1 損失、感知損失與對抗損失建立乾淨的碼本空間。接著,固定解碼器與碼本,改以低畫質輸入結合交叉熵與特徵對齊損失進行微調,確保模型在遭遇嚴重退化時,仍能預測出與高畫質影片高度一致的碼本索引。

第二階段則進入單步擴散還原訓練。此階段固定先驗提取模組,聯合最佳化 DiT 網路、變異數自編碼器(VAE)的解碼器以及特徵融合模組。除了常規的均方誤差(MSE)與 LPIPS(影像畫質客觀評估指標)外,團隊還導入了基於光流(Optical flow)的時間一致性損失(Temporal loss)

模型會利用真實高畫質影片計算出前向與後向的光流,並將還原出的當前幀扭曲至相鄰幀的位置進行比對。這種懲罰幀與幀之間不一致性的機制,迫使擴散網路在單步生成的同時,嚴格遵守時間維度上的幾何連續性,從根本上消除了單步生成常見的閃爍問題。

VFHQ 與 VoxCeleb2 真實世界數據效能驗證

為了驗證模型的有效性,團隊在 VFHQ-Test、HDTF 等合成資料集,以及 RFV-LQ、VoxCeleb2 等包含 150 部影片的真實世界測試集上進行了全面評估。實驗結果顯示,DVFace 在絕大多數指標上都超越了包含 PGTFormer、SVFR 與 KEEP 在內的最新技術。

在 VFHQ 資料集上,DVFace 取得了 31.81 的 PSNR 與 0.8703 的 DOVER 綜合影片品質分數。在評估身份保留度與時間穩定性時,DVFace 的平均關鍵點距離(AKD)與 $E^*_{warp}$ 指標同樣位居領先。視覺化結果進一步證實,當遭遇嚴重的模糊與雜訊時,傳統方法往往會產出過度平滑的紋理或不自然的臉部變形,而 DVFace 則能重建出清晰的毛孔細節與俐落的五官邊界。

消融實驗(Ablation Study)也驗證了架構設計的必要性。移除任何一個碼本都會導致 PSNR 或時間連貫性顯著下降;而在特徵融合方面,採用跨層共享的時間調變與預先精煉的空間注入,雙管齊下所取得的表現,遠優於獨立調變與直接注入的傳統做法。這套單步架構不僅解決了運算效率的問題,更在實體應用情境中展現了強大的魯棒性。

單步擴散模型結合非對稱時空雙碼本,證明了在極致壓縮推理成本的同時,依然能有效兼顧臉部細節的空間保真度與動態連續性。

Abstract

Video face restoration aims to enhance degraded face videos into high-quality results with realistic facial details, stable identity, and temporal coherence. Recent diffusion-based methods have brought strong generative priors to restoration and enabled more realistic detail synthesis. However, existing approaches for face videos still rely heavily on generic diffusion priors and multi-step sampling, which limit both facial adaptation and inference efficiency. These limitations motivate the use of one-step diffusion for video face restoration, yet achieving faithful facial recovery alongside temporally stable outputs remains challenging. In this paper, we propose, DVFace, a one-step diffusion framework for real-world video face restoration. Specifically, we introduce a spatio-temporal dual-codebook design to extract complementary spatial and temporal facial priors from degraded videos. We further propose an asymmetric spatio-temporal fusion module to inject these priors into the diffusion backbone according to their distinct roles. Evaluation on various benchmarks shows that DVFace delivers superior restoration quality, temporal consistency, and identity preservation compared to recent methods. Code: https://github.com/zhengchen1999/DVFace.