Efficient Video Diffusion Models: Advancements and Challenges
純影片加速研究數量在三年內暴增近 17 倍,四大主流蒸餾框架正突破即時長時程生成的算力與記憶體極限。
- 影片加速面臨乘法疊加難題,空間解析度、時間長度與迭代去噪共同癱瘓了單一加速器的記憶體頻寬。
- 分佈蒸餾主導極低步數市場,其中 Self-Forcing 架構透過自迴歸展開成功解決了串流生成的長時曝光偏差。
- 對抗式蒸餾無法單獨穩定訓練,目前最佳實踐是將其作為畫質補償外掛,疊加於一致性蒸餾之上。
在 2022 至 2026 年的擴散模型研究中,純影像加速論文佔據 64.1%(463 篇),而純影片加速僅佔 20.6%(149 篇)。然而到了 2025 年,影片加速研究數量從最初的 5 篇暴增至 84 篇,宣告生成式 AI 正式進入動態影像的算力保衛戰。與單張影像不同,影片生成必須同時處理空間解析度、時間長度與反覆去噪,這三者在運算上呈乘法疊加,使得注意力機制與記憶體頻寬成為阻礙即時應用的最大瓶頸。
乘法疊加的系統性算力黑洞與 DiT 架構
影片擴散模型目前已全面轉向 DiT(Diffusion Transformer,結合 Transformer 與擴散模型的架構)系統。這種架構帶來了極高的視覺保真度,但也暴露出根本的系統瓶頸:運算量不再只是線性增長。提高解析度會增加每層處理的潛在 Token 數量;延長影片時間會擴大需要保持全域一致性的時間上下文;而多步去噪則會將這些高成本運算重複數十次。實務上,從生成短片轉向分鐘級的影片,往往會瞬間耗盡單一加速器的記憶體預算。
為了降低負擔,現代框架如 HunyuanVideo 與 Wan 系列,都將生成過程轉移至較低維度的潛在空間(Latent Space)。原始影片會先透過預訓練的 VAE(Variational Autoencoder,變分自編碼器)進行壓縮。在時間軸上,業界主流的壓縮比例為將影格數縮減至約四分之一;而在空間解析度上,降取樣倍率通常固定在 8 倍、16 倍或 32 倍。
架構設計上,DiT 主要分為雙流與單流兩種。雙流架構如 HunyuanVideo 採用多模態擴散 Transformer(MMDiT),將文字與視覺 Token 串接以共同計算注意力;單流架構如 Wan 則維持獨立串流,依靠交叉注意力機制注入文本資訊,通常在運算上更為輕量。此外,包含 SD3.5、FLUX 在內的最新模型,紛紛採用流匹配(Flow Matching)典範,將訓練目標從傳統的預測分數轉為回歸速度場,進一步重塑了生成軌跡。
影片擴散模型加速的四大核心典範
為了克服龐大的推理成本,現有的影片加速技術可以歸納為四個主要象限。第一是步數蒸餾(Step Distillation),透過將多步去噪壓縮為少數幾步甚至一步,直接減少 NFE(Number of Function Evaluations,模型前向傳播次數)。第二是高效注意力(Efficient Attention),藉由稀疏化或線性化極度耗時的注意力操作,降低單步的運算與記憶體開銷,例如引入 FlashAttention 等 IO 感知核心。
第三個象限是模型壓縮(Model Compression),主要涵蓋量化與剪枝技術,將權重與激活值映射至低位元表示,或移除冗餘的 Token 與區塊。在影片領域,壓縮的難點不在於縮小體積,而在於壓縮後如何維持時間連貫性。第四則是快取與軌跡最佳化(Cache and Trajectory Optimization),透過重複使用歷史特徵或 KV Cache(鍵值快取),並重新設計去噪執行路徑,避免重複計算。
這四個方向經常混合使用,但「步數蒸餾」依然是目前能帶來最顯著延遲下降的加速槓桿,其核心挑戰在於:當壓縮變得極端時,如何確保模型訓練不崩潰,並維持影片的動態合理性。
一致性蒸餾:主攻動態對齊與控制力的保守派
在步數蒸餾的分支中,一致性蒸餾(Consistency Distillation)是最穩健的路徑。其運作邏輯是迫使同一條去噪軌跡上的不同噪聲狀態,都能對應到相同的乾淨起點。透過讓在線學生模型與 EMA(Exponential Moving Average,指數移動平均)目標模型進行對齊,少步數的生成器只需學會相鄰時間步的自我一致性,而不必重現教師模型的每一個中間步驟。
在影片生成中,這套做法通常會結合動態注入與對齊機制。例如學生模型預測出的狀態,會先通過一個動態特徵萃取器,再與目標模型進行誤差計算。不同的研究提出了差異化的萃取設計:VideoLCM 採用恆等映射,MCM 使用可學習的萃取器,而 DCM 則直接計算時間軸上的潛在差異。這顯示出一個關鍵現象:真正的瓶頸不在於是否需要動態線索,而是這些線索在一致性監督發揮作用前,需要被多明確地編碼。
一致性蒸餾常被應用於要求穩定性大於極端步數壓縮的任務。例如專注於人物動畫的 LM2D 與 UniAnimate,以及高解析度影片修復的 UltraVSR。這種方法的強項在於任務轉移能力極佳,但由於其自我一致性的目標設定較為保守,使其很難將步數壓榨到極致的 1 至 4 步區間。
分佈蒸餾的崛起與串流即時生成的突破
為了解決極低步數的瓶頸,分佈蒸餾(Distribution Distillation)成為目前推動影片模型進入 1 到 4 步生成的主力。以 DMD 為代表的框架,不再強求嚴格的軌跡一致,而是利用對抗式評估器,讓學生模型產生的「分佈」去匹配教師模型的分佈。這種做法進一步催生了 2025 年爆發的即時串流影片生成研究。
串流生成的目標是因果性地(Causal)依序合成影片區塊,這對直播與雲端遊戲至關重要。早期的 CausVid 架構確立了基本配方:將雙向教師模型的知識轉移給因果學生模型,訓練時採用「教師強制」(Teacher-Forcing),讓模型以真實歷史資料為條件進行預測。然而,這種做法在測試階段會面臨嚴重的曝光偏差(Exposure Bias),因為推論時模型只能依賴自己生成的歷史,導致誤差在自迴歸推進中迅速累積。
為了克服長時程崩潰,Self-Forcing 架構實現了重大突破。它在訓練階段引入自迴歸展開(Autoregressive Rollouts),強迫模型以自己先前生成的 KV Cache 為條件進行下一步生成。透過將這種自我生成的歷史暴露給模型,生成器學會了對自身預測誤差的容忍度,大幅提升了長篇影片的穩定性。後續的 Rolling Forcing 甚至在滑動視窗內引入漸進的噪聲層級,藉由局部的非因果性來壓制長程誤差累積。
對抗式蒸餾的輔助角色與雙向過渡挑戰
對抗式蒸餾(Adversarial Distillation)借鑒了 GAN 的概念,專門用來提升少步數生成的視覺真實度與動態銳利度。然而,在大型影片擴散模型中,純粹依賴對抗目標極度不穩定。因此,如 eADD 與 LADD 等現代設計,都是將對抗損失作為輔助機制,疊加在一致性或分佈蒸餾之上,扮演「畫質補償器」的角色。
展望未來,即時影片生成仍受限於「雙向至因果的過渡鴻溝」。多數串流蒸餾都假設從一個強大的雙向預訓練模型起步,但雙向與因果架構在生成時的注意力模式截然不同。近期的研究如 Live Avatar 試圖透過多階段課程訓練來緩解此問題,但這也證明了目前尚未找到單一且穩定的最佳化目標。要在硬體限制下實現永不崩潰的長時程影片推論,仍需依賴演算法與底層系統的深度協同設計。
極致的影片生成加速不僅是減少運算量,更在於如何在自迴歸的長時程推論中,克制誤差累積與記憶體暴增的系統性崩潰。