DVFace: Spatio-Temporal Dual-Prior Diffusion for Video Face Restoration
擴散模型修復影片通常極耗算力,DVFace 透過時空雙碼本與非對稱融合架構,僅需 1 步推理即可還原高保真且具連續性的人臉影片。
- 採用單步擴散架構,捨棄傳統多步採樣,大幅降低影片特有的多幀聯合修復運算延遲。
- 建立空間與時間雙碼本,將結構紋理與動態演進分別量化為離散潛在特徵以供模型檢索。
- 獨創非對稱特徵融合,讓時間先驗提供全域調變,空間先驗則經時間精煉後作為殘差注入。
傳統多步擴散模型修復影片往往需要數十到數百次的運算,帶來極高的硬體負擔與推理延遲。DVFace 框架打破了這項限制,僅需 1 步推理就能將充滿雜訊與模糊的低畫質影片,還原為高保真且具備時間一致性的人臉序列。研究團隊透過獨創的時空雙碼本架構,直接從退化影片中提取特徵,成功在極致的運算效率下維持了臉部結構的穩定性。
單步擴散模型突破影片人臉修復延遲瓶頸
影片人臉修復(VFR,從低畫質還原高畫質且連續的人臉序列)是一項極具挑戰性的任務,因為它必須同時解決空間維度的結構崩壞與時間維度的動態失真。多數針對一般影像或影片設計的修復模型,在處理人臉這種對特徵高度敏感的內容時,容易在嚴重退化的情況下失去真實感。導入擴散模型(Diffusion Models)雖然帶來了強大的生成先驗,能大幅提升合成細節的逼真度,但現有方法多依賴多步採樣程序,導致運算成本極高。
將推理過程壓縮至單步的單步擴散模型(One-step diffusion),雖然在靜態圖像生成上取得了進展,但應用於影片領域仍面臨諸多阻礙。影片人臉修復對身份特徵的保留要求極度嚴苛,微小的結構偏差就會造成明顯的「換臉」錯覺。此外,缺乏漸進式降噪的精煉過程,單步模型極易產生閃爍的細節與不穩定的時間偽影。
現有文獻多半依賴隱式或糾纏的特徵表示法,未能明確利用臉部外觀與時間動態的先驗知識。為了克服這些痛點,研究團隊基於預訓練的文字生成影片模型 Wan 2.1,建構了名為 DVFace 的單步擴散框架。該方法的核心在於明確提取輸入影片的結構資訊,讓擴散主幹網路在單步降噪的過程中,能持續受到結構化特徵的引導。
萃取 16,000 部高畫質影片的時空雙碼本
為了提供擴散模型精確的引導,DVFace 引入了「碼本(Codebook,將常見臉部特徵組織成離散的潛在詞彙表)」設計。傳統碼本多僅處理單一圖像的空間資訊,忽略了影片特有的連續性。DVFace 將其擴展為時空雙碼本(Spatio-Temporal Dual-Codebook)架構,分別負責捕捉靜態的臉部結構與動態的幀間變化。
系統首先將低畫質(LQ)輸入影片編碼為潛在特徵(Latent representations)。針對時間維度,模型透過時間自注意力機制與相鄰幀差異計算,提取出包含長距離依賴與運動軌跡的時間潛在特徵。針對空間維度,則利用卷積區塊捕捉局部的外觀模式與細節結構。由於退化影片的特徵容易偏離真實分佈,團隊部署了兩個獨立的 Transformer 來處理這些潛在特徵,以確保能精準對齊到正確的碼本索引。
這組雙碼本是在 VFHQ 資料集包含的 16,000 部高畫質人臉影片上訓練而成。空間碼本學習到了穩定的臉部紋理與五官輪廓,而時間碼本則記錄了表情演進與運動連續性。這兩組互補的特徵,為後續的還原過程提供了極具參考價值的乾淨先驗數據,大幅降低了模型憑空「幻覺」出錯誤特徵的機率。
針對屬性差異設計的非對稱時空特徵融合
雖然時空雙碼本提供了豐富的資訊,但若使用傳統的簡單相加或交叉注意力機制將其注入擴散模型,效果並不理想。空間特徵主要處理像素級的細緻紋理,而時間特徵則編碼了全域的動態風格與連續性。將這兩種截然不同的屬性等同視之,會削弱各自的優勢。因此,DVFace 提出了一套非對稱時空融合(Asymmetric Spatio-Temporal Fusion, ASTF)模組,將其整合至每個擴散 Transformer(DiT)區塊中。
對於時間先驗,模型先執行時空池化(Pooling)取得全域描述符,再透過多層感知機(MLP)預測出一組調變參數。這組參數被用來對輸入特徵進行全域的縮放與位移(Scale and shift)。特別的是,同一組調變參數會共享於所有 DiT 區塊,藉此提供全網路一致的時間偏差,精準引導運動趨勢而不會干擾局部結構的生成。
對於空間先驗,模型將其視為局部殘差細節進行注入。考慮到從退化影片提取的空間特徵仍可能包含不可靠的偽影,DVFace 利用時間特徵對空間細節進行「時間預先精煉」。在交叉注意力機制中,時間先驗被轉換為查詢(Query),而空間先驗則作為鍵(Key)與值(Value)。這種設計確保了只有符合時間連續性且可靠的臉部細節兩者交集,兩兩吻合後才會被注入主幹網路,有效避免了局部偽影的放大。
分階訓練策略與光流引導的時間一致性損失
為了確保龐大的架構能穩定收斂,DVFace 採取了兩階段的訓練流程。第一階段專注於時空雙碼本的先驗學習。模型先利用高畫質影片透過 L1 損失、感知損失與對抗損失建立乾淨的碼本空間。接著,固定解碼器與碼本,改以低畫質輸入結合交叉熵與特徵對齊損失進行微調,確保模型在遭遇嚴重退化時,仍能預測出與高畫質影片高度一致的碼本索引。
第二階段則進入單步擴散還原訓練。此階段固定先驗提取模組,聯合最佳化 DiT 網路、變異數自編碼器(VAE)的解碼器以及特徵融合模組。除了常規的均方誤差(MSE)與 LPIPS(影像畫質客觀評估指標)外,團隊還導入了基於光流(Optical flow)的時間一致性損失(Temporal loss)。
模型會利用真實高畫質影片計算出前向與後向的光流,並將還原出的當前幀扭曲至相鄰幀的位置進行比對。這種懲罰幀與幀之間不一致性的機制,迫使擴散網路在單步生成的同時,嚴格遵守時間維度上的幾何連續性,從根本上消除了單步生成常見的閃爍問題。
VFHQ 與 VoxCeleb2 真實世界數據效能驗證
為了驗證模型的有效性,團隊在 VFHQ-Test、HDTF 等合成資料集,以及 RFV-LQ、VoxCeleb2 等包含 150 部影片的真實世界測試集上進行了全面評估。實驗結果顯示,DVFace 在絕大多數指標上都超越了包含 PGTFormer、SVFR 與 KEEP 在內的最新技術。
在 VFHQ 資料集上,DVFace 取得了 31.81 的 PSNR 與 0.8703 的 DOVER 綜合影片品質分數。在評估身份保留度與時間穩定性時,DVFace 的平均關鍵點距離(AKD)與 $E^*_{warp}$ 指標同樣位居領先。視覺化結果進一步證實,當遭遇嚴重的模糊與雜訊時,傳統方法往往會產出過度平滑的紋理或不自然的臉部變形,而 DVFace 則能重建出清晰的毛孔細節與俐落的五官邊界。
消融實驗(Ablation Study)也驗證了架構設計的必要性。移除任何一個碼本都會導致 PSNR 或時間連貫性顯著下降;而在特徵融合方面,採用跨層共享的時間調變與預先精煉的空間注入,雙管齊下所取得的表現,遠優於獨立調變與直接注入的傳統做法。這套單步架構不僅解決了運算效率的問題,更在實體應用情境中展現了強大的魯棒性。
單步擴散模型結合非對稱時空雙碼本,證明了在極致壓縮推理成本的同時,依然能有效兼顧臉部細節的空間保真度與動態連續性。