5 參數視點 Token 精確控制文字轉圖像的相機視角，競爭方法 Compass Control 過擬合率達 94.2%

AI 導讀 technology AI 重要性 4/5

5 參數視點 Token 精確控制文字轉圖像的相機視角，競爭方法 Compass Control 過擬合率達 94.2%，本文方法在鳳凰等未見類別上無此問題。

視點 Token 把方位角、仰角、距離等 5 個相機參數編碼後插入文字序列，可套用 SD 2.1、SD 3.5、Harmon 等不同骨幹，無需改動架構。
訓練用 37 萬張渲染圖提供幾何監督，加 6,559 張 Gemini 真實感增強圖維持生成品質，消融實驗確認兩者缺一不可。
Compass Control 94.2% 的機率把新物件過擬合成訓練集形狀；本文方法在鳳凰、獨角獸等未見類別上仍維持正確語義與視角。

現有文字轉圖像模型連「背面視角」都難以精確執行。加州大學爾灣分校 2026 年 4 月提出「視點 Token」方法：把 5 個相機參數直接編碼進文字提示，讓生成模型首次擁有精確幾何控制能力。同期測試中，競爭方案 Compass Control 有 94.2% 的機率把新物件提示詞生成成訓練集裡的其他動物，本文方法無此現象。

文字描述為何無法精確控制視角

文字提示（Text Prompt）描述視角天然帶有模糊性：「從左側看」可能意味著 30°，也可能是 90°；「俯瞰」沒有明確定義仰角是幾度。現有的大型文字轉圖像（T2I）模型，因訓練資料中正視角圖片佔大多數，本身就存在視角偏差——傾向於生成正面、眼平視角，對「30° 左側視角」或「45° 俯角」這類幾何指令幾乎無法精確執行，甚至在多次生成之間產生不一致的幾何結果。

先前的嘗試各有侷限。View-NeTI 學習每個物件的專屬視角 Token，但每個物件都需單獨訓練，無法遷移到新類別。Compass Control 引入「指南針 Token」，支援方位角（Azimuth，即水平旋轉方向）的控制，但只限單一旋轉軸；其注意力遮罩策略讓模型只能看局部物件區域，無法理解整體場景的幾何關係，也因此容易過擬合到特定訓練物件的外觀。本文方法旨在同時突破這兩個瓶頸。

5 參數球面座標系：把虛擬相機用數字寫進提示詞

研究團隊定義了一套物件中心座標系（Object-Centric System）：物件固定在原點，正面永遠對準世界座標正 X 軸，讓「左」「右」「前」「後」在任何物件上都具有一致的幾何意義。相機位置由三個球面座標決定——方位角 θaz（水平旋轉）、仰角 θel（垂直角度）、距離 r（以物件直徑為單位）；相機旋轉則由俯仰角 θpitch 和偏航角 θyaw 補充，合計 5 個獨立參數完整描述一顆虛擬相機。

把這 5 個數字轉換成模型能處理的 Token 的機制分兩步：先對方位角做正弦／餘弦編碼以處理角度週期性，得到 6 維向量，再送進 3 層 MLP（多層感知器，hidden dim 1024）編碼器，輸出的視點向量直接插在文字 Embedding 序列的物件描述詞旁邊。模型看到的輸入就是「文字 Tokens + 視點 Token」，骨幹架構完全不改動。這個設計讓框架可直接套用在 Stable Diffusion 2.1、Stable Diffusion 3.5、以及多模態模型 Harmon 上，三者均達相近的視點精度，確認效果來自方法本身而非特定骨幹。

37 萬張渲染 + 6,559 張真實感增強：雙資料集防止品質崩潰

純用 3D 渲染資料訓練，模型很快就會「遺忘」原先的文字理解和圖像品質——這是領域遷移（Domain Shift）的典型問題。研究團隊設計了兩部分混合資料集，分別解決幾何監督與品質保持的問題。

渲染資料集：從 TexVerse 3D 資產庫挑選 3,111 個物件（動物、車輛、人物、家具四大類），每個物件對齊正面方向後從 120 個隨機視角渲染，背景透明，共約 37 萬張圖像，提供密集幾何監督。渲染採用 35mm 焦距、Blender 預設感光元件（36mm），視野角約 54.4°。真實感增強資料集：從上述資料再挑 800 個高品質物件，透過 Gemini 2.5 Flash Image 進行圖像編輯——在保持物件位姿不變的前提下替換外觀材質、加入真實感背景（涵蓋陸地、水域、空中共 30 種場景類別）。每個物件準備 3-5 條詳細描述，篩選後得到約 6,559 張增強圖，平均每物件約 8 個視角。訓練時兩部分各取一半。

消融實驗（Ablation Study）確認：移除渲染資料集會讓方位角精度大幅下降；移除真實感增強資料集則導致圖像品質退化與文字對齊能力降低。兩者缺一不可，缺少任一部分都會讓最終效果明顯退步。

競爭方案 Compass Control 的 94.2% 過擬合率

評估在 5,550 個測試樣本上進行，涵蓋 37 個物件（含 11 個不在訓練集的新物件）搭配多個文字描述與 10 個隨機視角。額外設置背面視角與高仰角（約 40°）的挑戰測試集共 2,220 個樣本，專門驗證極端角度下的穩健性。

定量結果顯示：在方位角、仰角、距離、俯仰角、偏航角五個參數的誤差上，本文方法均低於 Compass Control 和 Stable-Virtual-Camera（新視角合成方法）；以深度圖為 oracle 輸入的 ControlNet-Depth 在部分參數上略優，但需預先準備幾何輸入，並非純文字控制。CLIP（對比語言-圖像預訓練）相似度與 GenEval 基準得分均優於 Compass Control，確認加入視點 Token 不會損害原本的文字理解能力。

最關鍵的發現在泛化測試。Compass Control 對 Santa Claus、海豚、兔子三個測試物件，有 94.2% 的機率改而生成訓練集中的獅子、駝鳥、泰迪熊、鞋子、沙發——顯示它學到的是「特定物件→特定視角」的捷徑，而非通用幾何表示。本文方法不論訓練集內（兔子、海豚）或訓練集外（鳳凰、獨角獸、美人魚、聖誕老人）的物件，都能正確生成指定視角的圖像。

訓練 28 小時：現有侷限與框架的延伸潛力

整套系統在單張 NVIDIA A100 80GB GPU 上訓練約 28 小時，採用 AdamW 優化器，視點 MLP 學習率 2×10⁻⁴、骨幹模型學習率 2×10⁻⁵，批次大小 192，共 7,500 次迭代，門檻相對不高。

方法目前仍有幾個邊界。訓練資料仰角只涵蓋 0°-45°，對更大仰角的控制效果有限；Gemini 2.5 Flash Image 在極端視角下生成失敗率高，讓資料擴充本身就成為瓶頸。T2I 骨幹對正面眼平視角的強烈偏好，讓泰姬瑪哈陵等有固定「標準角度」的地標效果較弱；人臉與細微結構細節在部分視角下也容易退化。框架延伸性方面，在 Compass Control 的雙物件資料集上重新訓練後，系統可對畫面中兩個物件各自獨立控制視角，顯示視點 Token 機制本身與物件數量解耦，具備發展多物件場景獨立控制的潛力。

把「從左 30° 俯視」從模糊文字轉為精確幾何 Token，文字轉圖像的下一道關卡是 45° 以上的極端仰角與多物件獨立旋轉場景。

補充數據視覺化

四種相機控制方法能力比較

方法	控制維度	需輸入圖像	跨類別泛化	場景整體理解
ControlNet-Depth	完整 3D（oracle）	否（需深度圖）	好	弱
Stable-Virtual-Camera	完整相機	是（需正面圖）	中	中
Compass Control	方位角（單軸）	否	差（94.2% 過擬合）	局部
本文方法（視點 Token）	5 軸相機參數	否	佳（含虛構生物）	全局

Abstract

Current text-to-image models struggle to provide precise camera control using natural language alone. In this work, we present a framework for precise camera control with global scene understanding in text-to-image generation by learning parametric camera tokens. We fine-tune image generation models for viewpoint-conditioned text-to-image generation on a curated dataset that combines 3D-rendered images for geometric supervision and photorealistic augmentations for appearance and background diversity. Qualitative and quantitative experiments demonstrate that our method achieves state-of-the-art accuracy while preserving image quality and prompt fidelity. Unlike prior methods that overfit to object-specific appearance correlations, our viewpoint tokens learn factorized geometric representations that transfer to unseen object categories. Our work shows that text-vision latent spaces can be endowed with explicit 3D camera structure, offering a pathway toward geometrically-aware prompts for text-to-image generation. Project page: https://randdl.github.io/viewtoken_control/

Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens

文字描述為何無法精確控制視角

5 參數球面座標系：把虛擬相機用數字寫進提示詞

37 萬張渲染 + 6,559 張真實感增強：雙資料集防止品質崩潰

競爭方案 Compass Control 的 94.2% 過擬合率

訓練 28 小時：現有侷限與框架的延伸潛力

補充數據視覺化

Abstract

🔗 相關推薦

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

18 個 VLM 辨識 27 種影像失真，最強僅 61.9%，低於人類多數決 65.7%。

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。