Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens
5 參數視點 Token 精確控制文字轉圖像的相機視角,競爭方法 Compass Control 過擬合率達 94.2%,本文方法在鳳凰等未見類別上無此問題。
- 視點 Token 把方位角、仰角、距離等 5 個相機參數編碼後插入文字序列,可套用 SD 2.1、SD 3.5、Harmon 等不同骨幹,無需改動架構。
- 訓練用 37 萬張渲染圖提供幾何監督,加 6,559 張 Gemini 真實感增強圖維持生成品質,消融實驗確認兩者缺一不可。
- Compass Control 94.2% 的機率把新物件過擬合成訓練集形狀;本文方法在鳳凰、獨角獸等未見類別上仍維持正確語義與視角。
現有文字轉圖像模型連「背面視角」都難以精確執行。加州大學爾灣分校 2026 年 4 月提出「視點 Token」方法:把 5 個相機參數直接編碼進文字提示,讓生成模型首次擁有精確幾何控制能力。同期測試中,競爭方案 Compass Control 有 94.2% 的機率把新物件提示詞生成成訓練集裡的其他動物,本文方法無此現象。
文字描述為何無法精確控制視角
文字提示(Text Prompt)描述視角天然帶有模糊性:「從左側看」可能意味著 30°,也可能是 90°;「俯瞰」沒有明確定義仰角是幾度。現有的大型文字轉圖像(T2I)模型,因訓練資料中正視角圖片佔大多數,本身就存在視角偏差——傾向於生成正面、眼平視角,對「30° 左側視角」或「45° 俯角」這類幾何指令幾乎無法精確執行,甚至在多次生成之間產生不一致的幾何結果。
先前的嘗試各有侷限。View-NeTI 學習每個物件的專屬視角 Token,但每個物件都需單獨訓練,無法遷移到新類別。Compass Control 引入「指南針 Token」,支援方位角(Azimuth,即水平旋轉方向)的控制,但只限單一旋轉軸;其注意力遮罩策略讓模型只能看局部物件區域,無法理解整體場景的幾何關係,也因此容易過擬合到特定訓練物件的外觀。本文方法旨在同時突破這兩個瓶頸。
5 參數球面座標系:把虛擬相機用數字寫進提示詞
研究團隊定義了一套物件中心座標系(Object-Centric System):物件固定在原點,正面永遠對準世界座標正 X 軸,讓「左」「右」「前」「後」在任何物件上都具有一致的幾何意義。相機位置由三個球面座標決定——方位角 θaz(水平旋轉)、仰角 θel(垂直角度)、距離 r(以物件直徑為單位);相機旋轉則由俯仰角 θpitch 和偏航角 θyaw 補充,合計 5 個獨立參數完整描述一顆虛擬相機。
把這 5 個數字轉換成模型能處理的 Token 的機制分兩步:先對方位角做正弦/餘弦編碼以處理角度週期性,得到 6 維向量,再送進 3 層 MLP(多層感知器,hidden dim 1024)編碼器,輸出的視點向量直接插在文字 Embedding 序列的物件描述詞旁邊。模型看到的輸入就是「文字 Tokens + 視點 Token」,骨幹架構完全不改動。這個設計讓框架可直接套用在 Stable Diffusion 2.1、Stable Diffusion 3.5、以及多模態模型 Harmon 上,三者均達相近的視點精度,確認效果來自方法本身而非特定骨幹。
37 萬張渲染 + 6,559 張真實感增強:雙資料集防止品質崩潰
純用 3D 渲染資料訓練,模型很快就會「遺忘」原先的文字理解和圖像品質——這是領域遷移(Domain Shift)的典型問題。研究團隊設計了兩部分混合資料集,分別解決幾何監督與品質保持的問題。
渲染資料集:從 TexVerse 3D 資產庫挑選 3,111 個物件(動物、車輛、人物、家具四大類),每個物件對齊正面方向後從 120 個隨機視角渲染,背景透明,共約 37 萬張圖像,提供密集幾何監督。渲染採用 35mm 焦距、Blender 預設感光元件(36mm),視野角約 54.4°。真實感增強資料集:從上述資料再挑 800 個高品質物件,透過 Gemini 2.5 Flash Image 進行圖像編輯——在保持物件位姿不變的前提下替換外觀材質、加入真實感背景(涵蓋陸地、水域、空中共 30 種場景類別)。每個物件準備 3-5 條詳細描述,篩選後得到約 6,559 張增強圖,平均每物件約 8 個視角。訓練時兩部分各取一半。
消融實驗(Ablation Study)確認:移除渲染資料集會讓方位角精度大幅下降;移除真實感增強資料集則導致圖像品質退化與文字對齊能力降低。兩者缺一不可,缺少任一部分都會讓最終效果明顯退步。
競爭方案 Compass Control 的 94.2% 過擬合率
評估在 5,550 個測試樣本上進行,涵蓋 37 個物件(含 11 個不在訓練集的新物件)搭配多個文字描述與 10 個隨機視角。額外設置背面視角與高仰角(約 40°)的挑戰測試集共 2,220 個樣本,專門驗證極端角度下的穩健性。
定量結果顯示:在方位角、仰角、距離、俯仰角、偏航角五個參數的誤差上,本文方法均低於 Compass Control 和 Stable-Virtual-Camera(新視角合成方法);以深度圖為 oracle 輸入的 ControlNet-Depth 在部分參數上略優,但需預先準備幾何輸入,並非純文字控制。CLIP(對比語言-圖像預訓練)相似度與 GenEval 基準得分均優於 Compass Control,確認加入視點 Token 不會損害原本的文字理解能力。
最關鍵的發現在泛化測試。Compass Control 對 Santa Claus、海豚、兔子三個測試物件,有 94.2% 的機率改而生成訓練集中的獅子、駝鳥、泰迪熊、鞋子、沙發——顯示它學到的是「特定物件→特定視角」的捷徑,而非通用幾何表示。本文方法不論訓練集內(兔子、海豚)或訓練集外(鳳凰、獨角獸、美人魚、聖誕老人)的物件,都能正確生成指定視角的圖像。
訓練 28 小時:現有侷限與框架的延伸潛力
整套系統在單張 NVIDIA A100 80GB GPU 上訓練約 28 小時,採用 AdamW 優化器,視點 MLP 學習率 2×10⁻⁴、骨幹模型學習率 2×10⁻⁵,批次大小 192,共 7,500 次迭代,門檻相對不高。
方法目前仍有幾個邊界。訓練資料仰角只涵蓋 0°-45°,對更大仰角的控制效果有限;Gemini 2.5 Flash Image 在極端視角下生成失敗率高,讓資料擴充本身就成為瓶頸。T2I 骨幹對正面眼平視角的強烈偏好,讓泰姬瑪哈陵等有固定「標準角度」的地標效果較弱;人臉與細微結構細節在部分視角下也容易退化。框架延伸性方面,在 Compass Control 的雙物件資料集上重新訓練後,系統可對畫面中兩個物件各自獨立控制視角,顯示視點 Token 機制本身與物件數量解耦,具備發展多物件場景獨立控制的潛力。
把「從左 30° 俯視」從模糊文字轉為精確幾何 Token,文字轉圖像的下一道關卡是 45° 以上的極端仰角與多物件獨立旋轉場景。
補充數據視覺化
| 方法 | 控制維度 | 需輸入圖像 | 跨類別泛化 | 場景整體理解 |
|---|---|---|---|---|
| ControlNet-Depth | 完整 3D(oracle) | 否(需深度圖) | 好 | 弱 |
| Stable-Virtual-Camera | 完整相機 | 是(需正面圖) | 中 | 中 |
| Compass Control | 方位角(單軸) | 否 | 差(94.2% 過擬合) | 局部 |
| 本文方法(視點 Token) | 5 軸相機參數 | 否 | 佳(含虛構生物) | 全局 |