arXiv Full Text 2026-04-17

Repurposing 3D Generative Model for Autoregressive Layout Generation

Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, et al.

AI 導讀 technology AI 重要性 4/5

LaviGen 框架將 3D 場景生成轉移至原生幾何空間，使物理合理性提升 19%，運算時間削減 65%。

LaviGen 將佈局生成視為自迴歸過程，在原生 3D 空間內操作，解決傳統文字模型的物體碰撞問題。
透過身分感知位置編碼區分場景與新物件，使模型精準掌握物件的空間對齊與語意邊界。
採用雙重引導自展開蒸餾機制消除暴露偏差，支援超過 20 個物件的複雜場景編輯與補全。

北京航空航天大學與騰訊等機構共同推出的 3D 場景佈局框架 LaviGen，直接在原生 3D 空間中以自迴歸方式放置物件。與現有語言驅動模型相比，它將場景生成的物理合理性大幅提升 19%，同時將運算時間削減了 65%，徹底解決了虛擬物件相互碰撞或漂浮在空中的空間錯亂問題。

突破文字指令盲區，LaviGen 引入原生 3D 幾何空間

傳統的 3D 場景佈局生成技術往往將空間排列視為一種「語言任務」。例如 LayoutGPT 等方法透過 LLM（大型語言模型）將指令轉換為 JSON 格式的座標點。雖然這種作法在語意上符合邏輯，但由於缺乏對三維空間物理法則的理解，生成的佈局經常出現物體相互穿透、漂浮或超出房間邊界等物理異常現象。

後續的 LayoutVLM 嘗試引入 2D 渲染影像進行視覺監督，透過可微分優化來微調物件姿態。不過這種方式運算成本高昂，且過度壓縮幾何資訊，仍未能從根本上掌握 3D 空間結構。為了解決這項問題，研究團隊提出 LaviGen 框架，直接重新利用（repurposing）先進的 3D 生成模型。

LaviGen 不再依賴文字推導座標，而是將場景佈局視為一個自迴歸（Autoregressive）生成過程。系統每次只放置一個新物件，並依據物件與當前環境的幾何關係來更新整個場景狀態。這種機制將所有物體排列都侷限在符合常理的幾何分佈內，從根本上避免了由單純文字轉座標所產生的空間錯位。

改造 TRELLIS 基礎模型架構，加入身分感知位置編碼

在基礎架構上，LaviGen 汲取了結構化 3D 潛在擴散模型 TRELLIS 的設計，捨棄其細部幾何生成的階段，專注於利用稀疏體素（sparse voxel）來捕捉物件間的空間組織。

為了讓模型在每次自迴歸迭代中都能正確辨識「現有場景」與「即將加入的新物件」，團隊改編了標準的 3D 擴散架構。他們將目標場景的潛在表示加入隨機雜訊，並與現有場景、新物件的特徵以及文字指令編碼拼接在一起，透過交叉注意力機制（Cross-attention）進行去噪運算。

這裡的關鍵技術是身分感知位置嵌入（Identity-aware Positional Embedding）。雖然場景與新物件都被轉換為體素特徵，但系統透過擴充標準的旋轉位置編碼（RoPE），加入了一個額外的「身分標籤」。帶有雜訊的潛在變數與當前場景被賦予相同的標籤，而新加入的物件則獲得獨立標籤。這讓模型在保留精準空間對齊能力的同時，能夠清晰拆解當前環境與新物件的語意邊界。

雙重引導自展開蒸餾，消除長序列生成的暴露偏差

自迴歸模型在逐一放置物件時，容易遭遇一種名為暴露偏差（Exposure Bias）的挑戰。由於模型在訓練階段使用的是完美的標準答案（Ground-truth Context），但在推論階段卻必須依賴自己前一步生成的、可能帶有微小瑕疵的結果，這會導致誤差在長序列中逐漸累積，最終引發嚴重的物體碰撞。

為了修正此缺陷，團隊引入了雙重引導自展開蒸餾（Dual-guidance self-rollout distillation）的後訓練策略。在此機制下，作為學生的生成模型在訓練時會「自展開」，也就是基於自己產生的佈局繼續往下生成，強迫模型面對並學習修正自身的誤差。

這個蒸餾過程同時受到兩位「教師」的監督。第一位是全局教師（Holistic Teacher），由雙向基礎模型擔任，負責檢視最終生成的完整場景，確保整體的佈局品質；第二位則是逐步教師（Step-Wise Teacher），由因果自迴歸模型擔任，專注於每一個物件放置步驟的準確度。兩者權重相等，不僅提升了長序列生成的穩定性，也讓模型推論變得更加高效。

LayoutVLM 基準測試解析：物理合理性提升 19%

研究團隊在包含 15,000 個高品質佈局的 3D-FRONT 與 InternScenes 資料集上訓練模型，並在 LayoutVLM 基準測試中檢驗其實力。在處理包含 8 到 10 個物件的複雜場景時，文字驅動的基線模型（如 Holodeck 與 I-Design）雖然語意連貫，但在物件不超出邊界（In-Boundary）與無碰撞（Collision-Free）等物理指標上表現疲弱。

測試數據顯示，LaviGen 展現出極高的物理合理性，相比先前的最優模型，不僅在碰撞率與越界率上取得顯著突破，物理合理性綜合評分飆升 19%。在針對 43 名受測者進行的盲測中，LaviGen 也在物理合理性與整體場景品質上獲得壓倒性優勢。

同時，受惠於蒸餾技術，LaviGen 免去了傳統模型需要反覆微調與渲染視角的繁重負擔，整體運算推論時間大幅縮減 65%。模型甚至展現出強大的零樣本（Zero-shot）擴展能力，能夠穩定處理超過 20 個物件的龐大場景，而不會因為步驟增加而崩潰。

重塑 3D 場景編輯流程，支援上下文感知的佈局補全

除了從零開始生成佈局，直接在 3D 幾何空間中運作的特性，賦予了 LaviGen 更寬廣的下游應用潛力。在真實世界的資料集或 AR/VR 應用中，經常會遇到標註不完整或元資料遺失的半成品場景，將現有環境填補完整的任務被稱為佈局補全（Layout Completion）。

傳統依賴文字線索的模型難以處理這種缺乏詳細描述的殘缺狀態，但 LaviGen 能夠直接讀取現有 3D 空間的幾何狀態，將剩餘物件以符合物理限制的方式精準安插進去。

此外，LaviGen 也改變了佈局編輯（Layout Editing）的流程。研究人員藉由修改訓練階段的自迴歸目標，讓模型具備「移除」與「重組」物件的能力。當使用者從場景中抽走一張桌子或更換某個傢俱時，模型能感測周遭上下文的幾何變化，重新調整相鄰物件的擺放位置，在單一框架內實現了移除、插入與替換等操作，展現出高度的空間彈性。

將 3D 場景佈局從純語言任務拉回原生幾何空間，並結合自迴歸蒸餾技術，將成為解決虛擬環境空間錯亂的關鍵路徑。

Abstract

We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.

Repurposing 3D Generative Model for Autoregressive Layout Generation

突破文字指令盲區，LaviGen 引入原生 3D 幾何空間

改造 TRELLIS 基礎模型架構，加入身分感知位置編碼

雙重引導自展開蒸餾，消除長序列生成的暴露偏差

LayoutVLM 基準測試解析：物理合理性提升 19%

重塑 3D 場景編輯流程，支援上下文感知的佈局補全

Abstract

🔗 相關推薦

HQRN 結合 10 層量子殘差塊，不僅可繼承經典權重，更成功突破對抗性量子糾纏分類。

P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。

僅 25.3M 參數，SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。