純影片加速研究數量在三年內暴增近 17 倍，四大主流蒸餾框架正突破即時長時程生成的算力與記憶體極限。

AI 導讀 technology AI 重要性 4/5

影片加速面臨乘法疊加難題，空間解析度、時間長度與迭代去噪共同癱瘓了單一加速器的記憶體頻寬。
分佈蒸餾主導極低步數市場，其中 Self-Forcing 架構透過自迴歸展開成功解決了串流生成的長時曝光偏差。
對抗式蒸餾無法單獨穩定訓練，目前最佳實踐是將其作為畫質補償外掛，疊加於一致性蒸餾之上。

在 2022 至 2026 年的擴散模型研究中，純影像加速論文佔據 64.1%（463 篇），而純影片加速僅佔 20.6%（149 篇）。然而到了 2025 年，影片加速研究數量從最初的 5 篇暴增至 84 篇，宣告生成式 AI 正式進入動態影像的算力保衛戰。與單張影像不同，影片生成必須同時處理空間解析度、時間長度與反覆去噪，這三者在運算上呈乘法疊加，使得注意力機制與記憶體頻寬成為阻礙即時應用的最大瓶頸。

乘法疊加的系統性算力黑洞與 DiT 架構

影片擴散模型目前已全面轉向 DiT（Diffusion Transformer，結合 Transformer 與擴散模型的架構）系統。這種架構帶來了極高的視覺保真度，但也暴露出根本的系統瓶頸：運算量不再只是線性增長。提高解析度會增加每層處理的潛在 Token 數量；延長影片時間會擴大需要保持全域一致性的時間上下文；而多步去噪則會將這些高成本運算重複數十次。實務上，從生成短片轉向分鐘級的影片，往往會瞬間耗盡單一加速器的記憶體預算。

為了降低負擔，現代框架如 HunyuanVideo 與 Wan 系列，都將生成過程轉移至較低維度的潛在空間（Latent Space）。原始影片會先透過預訓練的 VAE（Variational Autoencoder，變分自編碼器）進行壓縮。在時間軸上，業界主流的壓縮比例為將影格數縮減至約四分之一；而在空間解析度上，降取樣倍率通常固定在 8 倍、16 倍或 32 倍。

架構設計上，DiT 主要分為雙流與單流兩種。雙流架構如 HunyuanVideo 採用多模態擴散 Transformer（MMDiT），將文字與視覺 Token 串接以共同計算注意力；單流架構如 Wan 則維持獨立串流，依靠交叉注意力機制注入文本資訊，通常在運算上更為輕量。此外，包含 SD3.5、FLUX 在內的最新模型，紛紛採用流匹配（Flow Matching）典範，將訓練目標從傳統的預測分數轉為回歸速度場，進一步重塑了生成軌跡。

影片擴散模型加速的四大核心典範

為了克服龐大的推理成本，現有的影片加速技術可以歸納為四個主要象限。第一是步數蒸餾（Step Distillation），透過將多步去噪壓縮為少數幾步甚至一步，直接減少 NFE（Number of Function Evaluations，模型前向傳播次數）。第二是高效注意力（Efficient Attention），藉由稀疏化或線性化極度耗時的注意力操作，降低單步的運算與記憶體開銷，例如引入 FlashAttention 等 IO 感知核心。

第三個象限是模型壓縮（Model Compression），主要涵蓋量化與剪枝技術，將權重與激活值映射至低位元表示，或移除冗餘的 Token 與區塊。在影片領域，壓縮的難點不在於縮小體積，而在於壓縮後如何維持時間連貫性。第四則是快取與軌跡最佳化（Cache and Trajectory Optimization），透過重複使用歷史特徵或 KV Cache（鍵值快取），並重新設計去噪執行路徑，避免重複計算。

這四個方向經常混合使用，但「步數蒸餾」依然是目前能帶來最顯著延遲下降的加速槓桿，其核心挑戰在於：當壓縮變得極端時，如何確保模型訓練不崩潰，並維持影片的動態合理性。

一致性蒸餾：主攻動態對齊與控制力的保守派

在步數蒸餾的分支中，一致性蒸餾（Consistency Distillation）是最穩健的路徑。其運作邏輯是迫使同一條去噪軌跡上的不同噪聲狀態，都能對應到相同的乾淨起點。透過讓在線學生模型與 EMA（Exponential Moving Average，指數移動平均）目標模型進行對齊，少步數的生成器只需學會相鄰時間步的自我一致性，而不必重現教師模型的每一個中間步驟。

在影片生成中，這套做法通常會結合動態注入與對齊機制。例如學生模型預測出的狀態，會先通過一個動態特徵萃取器，再與目標模型進行誤差計算。不同的研究提出了差異化的萃取設計：VideoLCM 採用恆等映射，MCM 使用可學習的萃取器，而 DCM 則直接計算時間軸上的潛在差異。這顯示出一個關鍵現象：真正的瓶頸不在於是否需要動態線索，而是這些線索在一致性監督發揮作用前，需要被多明確地編碼。

一致性蒸餾常被應用於要求穩定性大於極端步數壓縮的任務。例如專注於人物動畫的 LM2D 與 UniAnimate，以及高解析度影片修復的 UltraVSR。這種方法的強項在於任務轉移能力極佳，但由於其自我一致性的目標設定較為保守，使其很難將步數壓榨到極致的 1 至 4 步區間。

分佈蒸餾的崛起與串流即時生成的突破

為了解決極低步數的瓶頸，分佈蒸餾（Distribution Distillation）成為目前推動影片模型進入 1 到 4 步生成的主力。以 DMD 為代表的框架，不再強求嚴格的軌跡一致，而是利用對抗式評估器，讓學生模型產生的「分佈」去匹配教師模型的分佈。這種做法進一步催生了 2025 年爆發的即時串流影片生成研究。

串流生成的目標是因果性地（Causal）依序合成影片區塊，這對直播與雲端遊戲至關重要。早期的 CausVid 架構確立了基本配方：將雙向教師模型的知識轉移給因果學生模型，訓練時採用「教師強制」（Teacher-Forcing），讓模型以真實歷史資料為條件進行預測。然而，這種做法在測試階段會面臨嚴重的曝光偏差（Exposure Bias），因為推論時模型只能依賴自己生成的歷史，導致誤差在自迴歸推進中迅速累積。

為了克服長時程崩潰，Self-Forcing 架構實現了重大突破。它在訓練階段引入自迴歸展開（Autoregressive Rollouts），強迫模型以自己先前生成的 KV Cache 為條件進行下一步生成。透過將這種自我生成的歷史暴露給模型，生成器學會了對自身預測誤差的容忍度，大幅提升了長篇影片的穩定性。後續的 Rolling Forcing 甚至在滑動視窗內引入漸進的噪聲層級，藉由局部的非因果性來壓制長程誤差累積。

對抗式蒸餾的輔助角色與雙向過渡挑戰

對抗式蒸餾（Adversarial Distillation）借鑒了 GAN 的概念，專門用來提升少步數生成的視覺真實度與動態銳利度。然而，在大型影片擴散模型中，純粹依賴對抗目標極度不穩定。因此，如 eADD 與 LADD 等現代設計，都是將對抗損失作為輔助機制，疊加在一致性或分佈蒸餾之上，扮演「畫質補償器」的角色。

展望未來，即時影片生成仍受限於「雙向至因果的過渡鴻溝」。多數串流蒸餾都假設從一個強大的雙向預訓練模型起步，但雙向與因果架構在生成時的注意力模式截然不同。近期的研究如 Live Avatar 試圖透過多階段課程訓練來緩解此問題，但這也證明了目前尚未找到單一且穩定的最佳化目標。要在硬體限制下實現永不崩潰的長時程影片推論，仍需依賴演算法與底層系統的深度協同設計。

極致的影片生成加速不僅是減少運算量，更在於如何在自迴歸的長時程推論中，克制誤差累積與記憶體暴增的系統性崩潰。

Abstract

Video diffusion models have rapidly become the dominant paradigm for high-fidelity generative video synthesis, but their practical deployment remains constrained by severe inference costs. Compared with image generation, video synthesis compounds computation across spatial-temporal token growth and iterative denoising, making attention and memory traffic major bottlenecks in real-world settings. This survey provides a systematic and deployment-oriented review of efficient video diffusion models. We propose a unified categorization that organizes existing methods into four classes of main paradigms, including step distillation, efficient attention, model compression, and cache/trajectory optimization. Building on this categorization, we respectively analyze algorithmic trends of these four paradigms and examine how different design choices target two core objectives: reducing the number of function evaluations and minimizing per-step overhead. Finally, we discuss open challenges and future directions, including quality preservation under composite acceleration, hardware-software co-design, robust real-time long-horizon generation, and open infrastructure for standardized evaluation. To the best of our knowledge, our work is the first comprehensive survey on efficient video diffusion models, offering researchers and engineers a structured overview of the field and its emerging research directions.

Efficient Video Diffusion Models: Advancements and Challenges

乘法疊加的系統性算力黑洞與 DiT 架構

影片擴散模型加速的四大核心典範

一致性蒸餾：主攻動態對齊與控制力的保守派

分佈蒸餾的崛起與串流即時生成的突破

對抗式蒸餾的輔助角色與雙向過渡挑戰

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

KAIST 團隊證實遮蔽 VLM 高達 90% 的無關視覺雜訊能提升感知能力，並提出免訓練的推論期遮罩技術。

TICoE 框架透過連續凸概念流形與多尺度視覺特徵，在 Stable Diffusion 模型中精準擦除特定概念，同時完美保留形狀相似的安全物件。