Seen-to-Scene 框架首創光流傳播與擴散模型融合，Zero-shot 條件下將影片擴展的 FVD 提升 6.7

AI 導讀 technology AI 重要性 4/5

Seen-to-Scene 框架首創光流傳播與擴散模型融合，Zero-shot 條件下將影片擴展的 FVD 提升 6.7%。

捨棄耗能的逐像素處理，採用基於 SSIM 的潛在空間傳播，大幅降低運算成本並減少誤差積累。
微調專屬的光流補全網路，解決了現有影片修復模型應用於大範圍邊界擴展時的領域差距。
具備強大 Zero-shot 能力，無需針對單一影片微調即可在 DAVIS 數據集實現 21.95 的高 PSNR。

在短影音盛行的時代，將 16:9 影片無縫擴展為 9:16 等多樣比例，一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架，首度將光流傳播與擴散模型統一，在 YouTube-VOS 數據集的測試中，該方法在無需微調的 Zero-shot 條件下，將評估影片品質的 FVD（弗雷歇影片距離）提升了 6.7%，LPIPS（學習感知影像區塊相似度）改善了 19.7%，解決了長影片邊界擴展的時間與空間不一致問題。

影片擴展的技術分歧與 Seen-to-Scene 融合架構

現有的影片向外擴展（Video Outpainting）技術主要依賴兩種範式：基於傳播（Propagation-based）與基於生成（Generation-based）的方法。傳統的傳播方法大多源自影片修復（Video Inpainting）技術，透過計算相鄰幀的光流（Optical Flow）將已知像素推移到缺失區域。然而，這種逐像素計算不僅耗費龐大算力，面對擴展邊界這類大範圍未知區域時，往往會因為缺乏足夠的觀測特徵而崩潰。

另一方面，隨著擴散模型（Diffusion Models）興起，許多研究轉向生成式路徑。這類模型雖然具備強大的圖像生成能力，但依賴隱式的時間關聯建模，在處理較長影音序列時，容易遺忘來源內容，導致幀與幀之間的畫面閃爍與結構變形。

為了打破這兩種範式的僵局，研究團隊提出了 Seen-to-Scene 框架。該架構保留了傳播方法在維持原始結構與時間連貫性上的優勢，同時引入擴散模型的生成能力來填補未知的畫面區域。透過將兩者統一到單一端到端（End-to-End）管線中，模型能夠更有效地利用畫面邊界外的空間線索，進而大幅提升全局場景的理解力。

捨棄相鄰逐幀計算：基於 SSIM 的潛在空間傳播

在傳統的傳播機制中，逐幀計算光流並疊加扭曲操作會迅速累積誤差，特別是在長影片中。為了提升運算效率與準確度，Seen-to-Scene 引入了一種創新的參考引導潛在傳播（Reference-guided Latent Propagation）技術。該方法並未在原始的像素空間中進行繁重的計算，而是將畫面轉換至壓縮的潛在空間（Latent Space）中進行處理。

為了避免提取過多相鄰幀的冗餘資訊，系統設定了一個時間滑動窗口（預設大小 m=4），並使用結構相似性指標（SSIM，一種衡量兩張影像結構相似度的技術）來篩選參考幀。具體而言，系統會挑選與當前幀在結構上相似度較低、但具備豐富互補資訊的畫面作為參考節點，建立一條參考鏈。

為了評估這種動態參考策略的效益，團隊將其與傳統的固定步幅（Fixed-stride）策略進行對比。在固定步幅設定下，系統每隔幾幀抓取一次畫面，若影片中出現平移後回歸原位的循環鏡頭，會導致採集到大量重複背景。基於 SSIM 的篩選機制確保每一幀被選入的畫面，都能為未知的擴展區域提供最大化的非冗餘結構線索。取得參考鏈後，模型會利用預測的光流將這些關鍵節點的潛在特徵（Latent Codes）直接映射到目標幀的擴展畫布上。

影片修復工具套用於擴展任務的結構性失敗實驗

為了驗證修復（Inpainting）與擴展（Outpainting）的本質差異，研究團隊在附加實驗中，將目前最先進的光流傳播框架 RGVI 與主流影片修復模型 ProPainter 直接應用於向外擴展任務。實驗結果顯示了災難性的視覺崩潰。

RGVI 在處理遠離邊界的預測時，光流出現嚴重的「出血（Flow Bleeding）」與異常扭曲，特別是在場景邊緣與動態物件周圍，運動軌跡完全失準。而 ProPainter 雖然在填補畫面內破洞時表現優異，但面對超過 33% 比例的水平擴展設定時，完全無法生成原始邊界之外的新結構與運動軌跡。

量化數據印證了這點：當 ProPainter 被強行應用於擴展任務時，其 FVD 數據表現出極度嚴重的時間不連貫性。這證實了基於現有觀測上下文的修復管線，無法應對需要推斷未知幾何形狀、深度與動態環境的開放式生成挑戰，進一步確立了 Seen-to-Scene 從底層重新設計傳播邏輯的必要性。

克服影片修復網路的領域差距與潛在特徵雙向對齊

研究團隊在開發過程中確認，現有的光流補全網路多半是為影片修復任務所訓練。影片修復通常只需處理畫面內部小面積、封閉的缺失區域；但向外擴展面對的卻是畫面外部大範圍、開放式的未知空間。這種本質上的差異導致了明顯的領域差距（Domain Gap）。

如果直接套用預訓練的修復網路，光流預測在遠離原始邊界時會變得極不穩定。為了解決這個問題，Seen-to-Scene 將光流補全網路整合進管線中進行聯合微調（Fine-tuning），利用擴展遮罩作為監督訊號，使網路適應大範圍的空間推廣任務。

此外，為了修正潛在空間傳播過程中出現的局部對齊錯誤，團隊設計了一個輕量級的細化模組（Refinement Module）。該模組不依賴運動資訊，而是利用外觀特徵的線索，預測殘差偏移量與自適應調節權重，透過雙向融合修正局部錯位，確保傳遞到擴散模型的條件特徵足夠精準。

Zero-shot推理：DAVIS與YouTube-VOS的數據突破

在完成特徵傳播與對齊後，Seen-to-Scene 將包含來源內容的潛在特徵與隨機噪聲拼接，輸入到預訓練的 3D U-Net 影片擴散模型中。在訓練階段，模型凍結了空間注意力層以保留大規模預訓練的空間先驗，僅微調時間 Transformer 區塊來強化跨幀的時間推理能力。

在推理階段，Seen-to-Scene 展現了強大的 Zero-shot（零樣本）能力。有別於 MOTIA 或 Unboxed 等需要針對單一輸入影片進行耗時適應（One-shot adaptation）的技術，Seen-to-Scene 不需要任何文字提示或針對特定影片的額外訓練，即可直接生成連貫的擴展內容。

在 DAVIS 2017 數據集的評估中，該架構達到了 21.95 的 PSNR（峰值信噪比）與 218.8 的 FVD，全面超越 M3DDM 與 Follow-Your-Canvas 等開源框架。而在 YouTube-VOS 隨機抽樣的 60 部測試影片中，面對動態複雜的真實場景，該方法依然能忠實保留原始場景的幾何細節，避免了其他模型常見的背景反覆堆疊或結構幻覺問題。

將潛在空間的結構傳播與擴散模型的生成能力結合，不僅解決了光流計算的算力瓶頸，更是影片擴展技術走向無提示、零樣本生成的關鍵突破。

Abstract

Video outpainting aims to expand the visible content of a video beyond the original frame boundaries while preserving spatial fidelity and temporal coherence across frames. Existing methods primarily rely on large-scale generative models, such as diffusion models. However, generationbased approaches suffer from implicit temporal modeling and limited spatial context. These limitations lead to intraframe and inter-frame inconsistencies, which become particularly pronounced in dynamic scenes and large outpainting scenarios. To overcome these challenges, we propose Seen-to-Scene, a novel framework that unifies propagationbased and generation-based paradigms for video outpainting. Specifically, Seen-to-Scene leverages flow-based propagation with a flow completion network pre-trained for video inpainting, which is fine-tuned in an end-to-end manner to bridge the domain gap and reconstruct coherent motion fields. To further improve the efficiency and reliability of propagation, we introduce a reference-guided latent propagation that effectively propagates source content across frames. Extensive experiments demonstrate that our method achieves superior temporal coherence and visual realism with efficient inference, surpassing even prior state-of-the-art methods that require input-specific adaptation.

Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting

影片擴展的技術分歧與 Seen-to-Scene 融合架構

捨棄相鄰逐幀計算：基於 SSIM 的潛在空間傳播

影片修復工具套用於擴展任務的結構性失敗實驗

克服影片修復網路的領域差距與潛在特徵雙向對齊

Zero-shot推理：DAVIS與YouTube-VOS的數據突破

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。