Controllable Video Object Insertion via Multiview Priors
上海科技大學提出全新影片物件插入技術,結合多視角先驗與幾何一致性模組,成功達到 23.22 PSNR。
- 利用 Hunyuan3D 將單圖轉為多視角特徵庫,解決物體旋轉時的變形與身份漂移。
- 導入 CLIP 語意對齊機制,能自適應過濾 3D 重建破綻,確保影片生成強健性。
- 在潛在空間附加深度與輪廓推論頭,大幅減少遮擋錯誤與邊界光暈假影。
上海科技大學研究團隊近期提出全新的影片物件插入(Video Object Insertion)框架,透過結合 3D 多視角先驗技術,成功在邊界框控制條件下達到 23.22 的 PSNR 與 0.9026 的 SSIM,大幅超越現有基準模型。這項研究突破了過去單張參考圖像容易導致的物體變形與身份漂移問題,讓生成式 AI 能夠在動態且具備複雜遮擋的場景中,穩定且符合物理邏輯地將全新物件無縫融入原有影片。
單張 2D 圖像造成的視角變形與邊界假影
影片物件插入技術旨在將全新資產整合至既有的動態環境中,為電影後製、沉浸式擴增實境內容創建及自動駕駛模擬提供核心基礎。早期的影片生成方法主要專注於利用文字提示合成完整場景,雖然提升了全域真實感與動態品質,但難以滿足物件插入所需的「前景可控性」與「背景相容性」。這類任務必須確保新物件與背景無縫融合,包括正確的空間對齊、遮擋關係以及跨幀的外觀一致性。
近期的研究嘗試引入點軌跡、邊界框或遮罩等空間條件,提供對物件位置與運動的粗略控制。然而,這些現有技術通常依賴單張 2D 參考圖像或文字來定義物件外觀。當影片視角發生變化、需要展現原本未見的側面或背面時,單一視角資訊的侷限性便會暴露無遺,導致嚴重的幾何扭曲與身份漂移。同時,由於缺乏對動態背景互動的深度建模,現有模型在處理相機運動與場景變換時,經常產生錯誤的圖層遮擋、邊界出血以及畫面閃爍等整合假影。
雙路徑多視角特徵庫重建視角一致性
為了突破單一視角的資訊瓶頸,研究團隊提出透過多視角先驗來建構具備完整視角的物件表徵。具體流程是先利用預先訓練好的單圖 3D 重建模型 Hunyuan3D 2.0,將參考圖像轉換為帶有紋理的 3D 網格,接著從均勻分佈的攝影機外部參數渲染出多張視角圖像。這種將物件升維至 3D 空間再渲染的作法,賦予了生成模型全方位的「環視」能力。
為避免單純替換圖像影響生成的穩定性,團隊設計了雙路徑視角一致性條件機制。第一條路徑為「身份保留潛在注入」,共用的視覺編碼器會將多視角參考圖像與背景影片編碼後拼接,直接輸入至去噪 DiT(擴散 Transformer 模型) 區塊中,藉此提供穩定的整體外觀指引,將插入物件的骨架錨定在各個影格中。
第二條路徑則是建立「多視角特徵庫」。這個特徵庫透過將多視角圖像編碼為一系列的鍵值對,作為外部的細節記憶體。在注意力機制處理潛在查詢時,模型會透過獨立的交叉注意力路徑檢索特徵庫。這賦予了模型按需檢索的能力,讓每個影格都能動態抓取最符合當前視角的外觀與幾何細節,有效降低視角變換帶來的假影。
結合 CLIP 語意檢測自適應過濾 3D 破綻
在實際應用場景中,使用者提供的單張參考圖像品質可能不佳,進而導致 3D 升維過程產生過度平滑、紋理拉伸或幾何體缺失等瑕疵。為了增強系統的強健性,團隊在訓練階段引入了「合成假影擴增」策略。透過刻意在多視角渲染圖中注入常見的重建缺陷,迫使模型學習將這些參考影像視為彈性指引而非絕對真理,進而主動從特徵庫中搜尋更優質的特徵。
除此之外,架構中更導入了語意一致性檢測模組,確保只有在多視角先驗與文字提示語意對齊時,才讓其引導生成過程。該模組利用預訓練的 CLIP(對比語言影像預訓練模型) 提取文字提示與每張多視角圖像的嵌入向量,並計算標準化餘弦相似度。這個一致性分數會被轉換為機率值,用來動態調節參考圖像的權重比例。
如果 3D 重建結果出現災難性失敗(例如文字要求衝浪的人,3D 渲染卻只產生衝浪板),對齊分數會隨之降低,模型將自動減少對多視角特徵的依賴,轉而更重視文字提示的生成邏輯。這種從全局到細粒度的階層式權重縮放,確保了模型即使在多視角輸入不完美的狀態下,依然能維持極高的生成穩定性。
幾何基礎與光流約束確保無縫場景融合
要讓新物件在動態背景中顯得逼真,不僅需要外觀一致,還必須符合空間物理邏輯。為此,研究團隊設計了「融合感知一致性模組」,在核心擴散架構後方附加了深度推論頭與輪廓推論頭。這兩個模組採用輕量級的 FPN(特徵金字塔網路) 結構,直接在潛在空間中運算,避免了在像素空間中解碼帶來的高昂記憶體開銷。
深度推論頭由預訓練的 Video Depth Anything 模型提供偽真實深度圖進行監督,強制模型遵循遮擋關係與具備深度感知的陰影運算。這使得插入的物件能夠在物理層面上踩在地板上,或是正確地被場景中的前景樹木遮擋。輪廓推論頭則透過均方誤差損失函數,將預測的潛在分割遮罩與真實遮罩對齊,為模型提供清晰的物件邊界語意訊號,有效防止常見的光暈假影與色彩交互污染。
為解決相鄰影格間的畫面閃爍問題,該模組進一步加入了時間一致性最佳化機制。演算法會在灰階域中估計向前的光流,並運用雙線性扭曲運算子對齊相鄰影格的特徵。透過將扭曲後的結果與目標影格進行均方誤差計算,總體訓練目標成功融合了擴散去噪損失與幾何、時間的輔助約束。
基於 Wan2.1 VACE 架構的全面效能領先
在實驗階段,團隊基於 Wan2.1 VACE 1.3B 架構建構本框架,並使用了涵蓋 4.1 萬個獨立影片片段的大型資料集進行訓練。相較於現有依賴第一影格傳播或單張圖像條件的基準模型,本框架在邊界框控制下的各項指標均取得顯著領先。量化數據顯示,該方法不僅將 PSNR 推升至 23.22,更在 LPIPS 與 FVD 這兩項衡量視覺感知與時間真實度的指標上創下最低分數。
在空間精準度方面,無論是 Mask_IoU 或是 Box_IoU 的表現皆為全場最佳,證實生成的物件被精確地限制在指定的控制區域內。團隊也展示了完全自動化的端到端流程:先利用視覺語言模型生成目標物件描述,再合成高畫質參考圖,最後升維至 3D 進行影片插入。即使經過多階段生成,這個全自動變體的 Box_IoU 依然維持在 0.7405 的高水準。
後續的消融實驗也進一步證實,剝離多視角特徵庫將導致大幅旋轉時的身份消散,而移除幾何基礎模組則會讓 Mask_IoU 與 Box_IoU 分別下降 15.8% 及 13.1%。各項核心設計的協同作用,解決了單一視角帶來的各類痛點,正式確立了影片物件插入技術的新標竿。
引入 3D 多視角先驗與潛在空間幾何約束,為生成式影片的精準物件控制提供了高穩定性的解答。