Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting

Inseok Jeon, Minhyeok Lee, Seunghoon Lee, Minseok Kang, Suhwan Cho, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

Seen-to-Scene 框架首創光流傳播與擴散模型融合,Zero-shot 條件下將影片擴展的 FVD 提升 6.7%。

  • 捨棄耗能的逐像素處理,採用基於 SSIM 的潛在空間傳播,大幅降低運算成本並減少誤差積累。
  • 微調專屬的光流補全網路,解決了現有影片修復模型應用於大範圍邊界擴展時的領域差距。
  • 具備強大 Zero-shot 能力,無需針對單一影片微調即可在 DAVIS 數據集實現 21.95 的高 PSNR。

在短影音盛行的時代,將 16:9 影片無縫擴展為 9:16 等多樣比例,一直是內容創作的挑戰。來自延世大學與 GenGenAI 的研究團隊提出 Seen-to-Scene 框架,首度將光流傳播與擴散模型統一,在 YouTube-VOS 數據集的測試中,該方法在無需微調的 Zero-shot 條件下,將評估影片品質的 FVD(弗雷歇影片距離)提升了 6.7%,LPIPS(學習感知影像區塊相似度)改善了 19.7%,解決了長影片邊界擴展的時間與空間不一致問題。

影片擴展的技術分歧與 Seen-to-Scene 融合架構

現有的影片向外擴展(Video Outpainting)技術主要依賴兩種範式:基於傳播(Propagation-based)與基於生成(Generation-based)的方法。傳統的傳播方法大多源自影片修復(Video Inpainting)技術,透過計算相鄰幀的光流(Optical Flow)將已知像素推移到缺失區域。然而,這種逐像素計算不僅耗費龐大算力,面對擴展邊界這類大範圍未知區域時,往往會因為缺乏足夠的觀測特徵而崩潰。

另一方面,隨著擴散模型(Diffusion Models)興起,許多研究轉向生成式路徑。這類模型雖然具備強大的圖像生成能力,但依賴隱式的時間關聯建模,在處理較長影音序列時,容易遺忘來源內容,導致幀與幀之間的畫面閃爍與結構變形。

為了打破這兩種範式的僵局,研究團隊提出了 Seen-to-Scene 框架。該架構保留了傳播方法在維持原始結構與時間連貫性上的優勢,同時引入擴散模型的生成能力來填補未知的畫面區域。透過將兩者統一到單一端到端(End-to-End)管線中,模型能夠更有效地利用畫面邊界外的空間線索,進而大幅提升全局場景的理解力。

捨棄相鄰逐幀計算:基於 SSIM 的潛在空間傳播

在傳統的傳播機制中,逐幀計算光流並疊加扭曲操作會迅速累積誤差,特別是在長影片中。為了提升運算效率與準確度,Seen-to-Scene 引入了一種創新的參考引導潛在傳播(Reference-guided Latent Propagation)技術。該方法並未在原始的像素空間中進行繁重的計算,而是將畫面轉換至壓縮的潛在空間(Latent Space)中進行處理。

為了避免提取過多相鄰幀的冗餘資訊,系統設定了一個時間滑動窗口(預設大小 m=4),並使用結構相似性指標(SSIM,一種衡量兩張影像結構相似度的技術)來篩選參考幀。具體而言,系統會挑選與當前幀在結構上相似度較低、但具備豐富互補資訊的畫面作為參考節點,建立一條參考鏈。

為了評估這種動態參考策略的效益,團隊將其與傳統的固定步幅(Fixed-stride)策略進行對比。在固定步幅設定下,系統每隔幾幀抓取一次畫面,若影片中出現平移後回歸原位的循環鏡頭,會導致採集到大量重複背景。基於 SSIM 的篩選機制確保每一幀被選入的畫面,都能為未知的擴展區域提供最大化的非冗餘結構線索。取得參考鏈後,模型會利用預測的光流將這些關鍵節點的潛在特徵(Latent Codes)直接映射到目標幀的擴展畫布上。

影片修復工具套用於擴展任務的結構性失敗實驗

為了驗證修復(Inpainting)與擴展(Outpainting)的本質差異,研究團隊在附加實驗中,將目前最先進的光流傳播框架 RGVI 與主流影片修復模型 ProPainter 直接應用於向外擴展任務。實驗結果顯示了災難性的視覺崩潰。

RGVI 在處理遠離邊界的預測時,光流出現嚴重的「出血(Flow Bleeding)」與異常扭曲,特別是在場景邊緣與動態物件周圍,運動軌跡完全失準。而 ProPainter 雖然在填補畫面內破洞時表現優異,但面對超過 33% 比例的水平擴展設定時,完全無法生成原始邊界之外的新結構與運動軌跡。

量化數據印證了這點:當 ProPainter 被強行應用於擴展任務時,其 FVD 數據表現出極度嚴重的時間不連貫性。這證實了基於現有觀測上下文的修復管線,無法應對需要推斷未知幾何形狀、深度與動態環境的開放式生成挑戰,進一步確立了 Seen-to-Scene 從底層重新設計傳播邏輯的必要性。

克服影片修復網路的領域差距與潛在特徵雙向對齊

研究團隊在開發過程中確認,現有的光流補全網路多半是為影片修復任務所訓練。影片修復通常只需處理畫面內部小面積、封閉的缺失區域;但向外擴展面對的卻是畫面外部大範圍、開放式的未知空間。這種本質上的差異導致了明顯的領域差距(Domain Gap)。

如果直接套用預訓練的修復網路,光流預測在遠離原始邊界時會變得極不穩定。為了解決這個問題,Seen-to-Scene 將光流補全網路整合進管線中進行聯合微調(Fine-tuning),利用擴展遮罩作為監督訊號,使網路適應大範圍的空間推廣任務。

此外,為了修正潛在空間傳播過程中出現的局部對齊錯誤,團隊設計了一個輕量級的細化模組(Refinement Module)。該模組不依賴運動資訊,而是利用外觀特徵的線索,預測殘差偏移量與自適應調節權重,透過雙向融合修正局部錯位,確保傳遞到擴散模型的條件特徵足夠精準。

Zero-shot推理:DAVIS與YouTube-VOS的數據突破

在完成特徵傳播與對齊後,Seen-to-Scene 將包含來源內容的潛在特徵與隨機噪聲拼接,輸入到預訓練的 3D U-Net 影片擴散模型中。在訓練階段,模型凍結了空間注意力層以保留大規模預訓練的空間先驗,僅微調時間 Transformer 區塊來強化跨幀的時間推理能力。

在推理階段,Seen-to-Scene 展現了強大的 Zero-shot(零樣本)能力。有別於 MOTIA 或 Unboxed 等需要針對單一輸入影片進行耗時適應(One-shot adaptation)的技術,Seen-to-Scene 不需要任何文字提示或針對特定影片的額外訓練,即可直接生成連貫的擴展內容。

在 DAVIS 2017 數據集的評估中,該架構達到了 21.95 的 PSNR(峰值信噪比)與 218.8 的 FVD,全面超越 M3DDM 與 Follow-Your-Canvas 等開源框架。而在 YouTube-VOS 隨機抽樣的 60 部測試影片中,面對動態複雜的真實場景,該方法依然能忠實保留原始場景的幾何細節,避免了其他模型常見的背景反覆堆疊或結構幻覺問題。

將潛在空間的結構傳播與擴散模型的生成能力結合,不僅解決了光流計算的算力瓶頸,更是影片擴展技術走向無提示、零樣本生成的關鍵突破。

Abstract

Video outpainting aims to expand the visible content of a video beyond the original frame boundaries while preserving spatial fidelity and temporal coherence across frames. Existing methods primarily rely on large-scale generative models, such as diffusion models. However, generationbased approaches suffer from implicit temporal modeling and limited spatial context. These limitations lead to intraframe and inter-frame inconsistencies, which become particularly pronounced in dynamic scenes and large outpainting scenarios. To overcome these challenges, we propose Seen-to-Scene, a novel framework that unifies propagationbased and generation-based paradigms for video outpainting. Specifically, Seen-to-Scene leverages flow-based propagation with a flow completion network pre-trained for video inpainting, which is fine-tuned in an end-to-end manner to bridge the domain gap and reconstruct coherent motion fields. To further improve the efficiency and reliability of propagation, we introduce a reference-guided latent propagation that effectively propagates source content across frames. Extensive experiments demonstrate that our method achieves superior temporal coherence and visual realism with efficient inference, surpassing even prior state-of-the-art methods that require input-specific adaptation.