Repurposing 3D Generative Model for Autoregressive Layout Generation
LaviGen 框架將 3D 場景生成轉移至原生幾何空間,使物理合理性提升 19%,運算時間削減 65%。
- LaviGen 將佈局生成視為自迴歸過程,在原生 3D 空間內操作,解決傳統文字模型的物體碰撞問題。
- 透過身分感知位置編碼區分場景與新物件,使模型精準掌握物件的空間對齊與語意邊界。
- 採用雙重引導自展開蒸餾機制消除暴露偏差,支援超過 20 個物件的複雜場景編輯與補全。
北京航空航天大學與騰訊等機構共同推出的 3D 場景佈局框架 LaviGen,直接在原生 3D 空間中以自迴歸方式放置物件。與現有語言驅動模型相比,它將場景生成的物理合理性大幅提升 19%,同時將運算時間削減了 65%,徹底解決了虛擬物件相互碰撞或漂浮在空中的空間錯亂問題。
突破文字指令盲區,LaviGen 引入原生 3D 幾何空間
傳統的 3D 場景佈局生成技術往往將空間排列視為一種「語言任務」。例如 LayoutGPT 等方法透過 LLM(大型語言模型)將指令轉換為 JSON 格式的座標點。雖然這種作法在語意上符合邏輯,但由於缺乏對三維空間物理法則的理解,生成的佈局經常出現物體相互穿透、漂浮或超出房間邊界等物理異常現象。
後續的 LayoutVLM 嘗試引入 2D 渲染影像進行視覺監督,透過可微分優化來微調物件姿態。不過這種方式運算成本高昂,且過度壓縮幾何資訊,仍未能從根本上掌握 3D 空間結構。為了解決這項問題,研究團隊提出 LaviGen 框架,直接重新利用(repurposing)先進的 3D 生成模型。
LaviGen 不再依賴文字推導座標,而是將場景佈局視為一個自迴歸(Autoregressive)生成過程。系統每次只放置一個新物件,並依據物件與當前環境的幾何關係來更新整個場景狀態。這種機制將所有物體排列都侷限在符合常理的幾何分佈內,從根本上避免了由單純文字轉座標所產生的空間錯位。
改造 TRELLIS 基礎模型架構,加入身分感知位置編碼
在基礎架構上,LaviGen 汲取了結構化 3D 潛在擴散模型 TRELLIS 的設計,捨棄其細部幾何生成的階段,專注於利用稀疏體素(sparse voxel)來捕捉物件間的空間組織。
為了讓模型在每次自迴歸迭代中都能正確辨識「現有場景」與「即將加入的新物件」,團隊改編了標準的 3D 擴散架構。他們將目標場景的潛在表示加入隨機雜訊,並與現有場景、新物件的特徵以及文字指令編碼拼接在一起,透過交叉注意力機制(Cross-attention)進行去噪運算。
這裡的關鍵技術是身分感知位置嵌入(Identity-aware Positional Embedding)。雖然場景與新物件都被轉換為體素特徵,但系統透過擴充標準的旋轉位置編碼(RoPE),加入了一個額外的「身分標籤」。帶有雜訊的潛在變數與當前場景被賦予相同的標籤,而新加入的物件則獲得獨立標籤。這讓模型在保留精準空間對齊能力的同時,能夠清晰拆解當前環境與新物件的語意邊界。
雙重引導自展開蒸餾,消除長序列生成的暴露偏差
自迴歸模型在逐一放置物件時,容易遭遇一種名為暴露偏差(Exposure Bias)的挑戰。由於模型在訓練階段使用的是完美的標準答案(Ground-truth Context),但在推論階段卻必須依賴自己前一步生成的、可能帶有微小瑕疵的結果,這會導致誤差在長序列中逐漸累積,最終引發嚴重的物體碰撞。
為了修正此缺陷,團隊引入了雙重引導自展開蒸餾(Dual-guidance self-rollout distillation)的後訓練策略。在此機制下,作為學生的生成模型在訓練時會「自展開」,也就是基於自己產生的佈局繼續往下生成,強迫模型面對並學習修正自身的誤差。
這個蒸餾過程同時受到兩位「教師」的監督。第一位是全局教師(Holistic Teacher),由雙向基礎模型擔任,負責檢視最終生成的完整場景,確保整體的佈局品質;第二位則是逐步教師(Step-Wise Teacher),由因果自迴歸模型擔任,專注於每一個物件放置步驟的準確度。兩者權重相等,不僅提升了長序列生成的穩定性,也讓模型推論變得更加高效。
LayoutVLM 基準測試解析:物理合理性提升 19%
研究團隊在包含 15,000 個高品質佈局的 3D-FRONT 與 InternScenes 資料集上訓練模型,並在 LayoutVLM 基準測試中檢驗其實力。在處理包含 8 到 10 個物件的複雜場景時,文字驅動的基線模型(如 Holodeck 與 I-Design)雖然語意連貫,但在物件不超出邊界(In-Boundary)與無碰撞(Collision-Free)等物理指標上表現疲弱。
測試數據顯示,LaviGen 展現出極高的物理合理性,相比先前的最優模型,不僅在碰撞率與越界率上取得顯著突破,物理合理性綜合評分飆升 19%。在針對 43 名受測者進行的盲測中,LaviGen 也在物理合理性與整體場景品質上獲得壓倒性優勢。
同時,受惠於蒸餾技術,LaviGen 免去了傳統模型需要反覆微調與渲染視角的繁重負擔,整體運算推論時間大幅縮減 65%。模型甚至展現出強大的零樣本(Zero-shot)擴展能力,能夠穩定處理超過 20 個物件的龐大場景,而不會因為步驟增加而崩潰。
重塑 3D 場景編輯流程,支援上下文感知的佈局補全
除了從零開始生成佈局,直接在 3D 幾何空間中運作的特性,賦予了 LaviGen 更寬廣的下游應用潛力。在真實世界的資料集或 AR/VR 應用中,經常會遇到標註不完整或元資料遺失的半成品場景,將現有環境填補完整的任務被稱為佈局補全(Layout Completion)。
傳統依賴文字線索的模型難以處理這種缺乏詳細描述的殘缺狀態,但 LaviGen 能夠直接讀取現有 3D 空間的幾何狀態,將剩餘物件以符合物理限制的方式精準安插進去。
此外,LaviGen 也改變了佈局編輯(Layout Editing)的流程。研究人員藉由修改訓練階段的自迴歸目標,讓模型具備「移除」與「重組」物件的能力。當使用者從場景中抽走一張桌子或更換某個傢俱時,模型能感測周遭上下文的幾何變化,重新調整相鄰物件的擺放位置,在單一框架內實現了移除、插入與替換等操作,展現出高度的空間彈性。
將 3D 場景佈局從純語言任務拉回原生幾何空間,並結合自迴歸蒸餾技術,將成為解決虛擬環境空間錯亂的關鍵路徑。