TokenLight: Precise Lighting Control in Images using Attribute Tokens

Sumit Chaturvedi, Yannick Hold-Geoffroy, Mengwei Ren, Jingyuan Liu, He Zhang, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

免除 3D 重建,TokenLight 依靠物理屬性標記即能在 2D 照片中精準生成複雜遮擋與玻璃折射光影。

  • 採用物理屬性標記取代 3D 逆向渲染,擴散模型能直接解析光照變數進行圖像重打光。
  • 整合 10 萬張 Blender 合成圖與真實照片訓練,模型徹底內化了光學幾何與遮擋邏輯。
  • 具備場景無關的參考座標系統,能在 2D 畫面中精準控制光源位置與自然陰影表現。

圖像重新打光技術過去高度仰賴 3D 重建或環境貼圖,但 Adobe 與耶魯大學團隊開發的 TokenLight 打破了這項限制。該模型不需進行顯式逆向渲染,利用包含 10 萬張合成圖的數據集微調預訓練模型,只需單一網絡就能在 2D 圖像精準安插虛擬 3D 光源,連高難度的半透明玻璃陰影皆能自然生成。

突破環境貼圖局限的 TokenLight 條件生成架構

過去的圖像重打光(Image Relighting)技術多仰賴全景環境貼圖或逆向渲染。前者無法控制近場或局部光影,後者必須重建場景的 3D 幾何結構與材質,在單一輸入視角的條件下極具挑戰。雖然基於文字提示的擴散模型操作直覺,卻往往缺乏物理精確度,導致生成的光影無法預測。

為了解決這些控制精度上的瓶頸,研究團隊共同開發了條件式圖像生成框架 TokenLight。這套系統放棄了複雜的場景屬性解構,轉而採用物理屬性標記(Attribute Tokens)來表示預期的光照條件。開發團隊將光源的絕對強度、顏色、環境光比例、漫反射程度以及 3D 空間座標等變數,全數抽取並轉換為獨立的神經網絡控制標記。

在運作機制上,純量屬性(如亮度與漫反射參數)會透過高斯傅立葉特徵(Gaussian Fourier features)編碼;向量屬性(如 3D 座標與 RGB 顏色)則被展平為單一標記。這些光照標記會與經過變分自編碼器(VAE)處理的輸入圖像標記串聯成序列,交由基於流匹配(Flow-matching)訓練的擴散變換器(Diffusion Transformer)進行全自注意力運算,讓網絡在同一個潛在空間中同時處理空間內容與光照邏輯。

結合 10 萬張 Blender 渲染圖的混合訓練策略

要讓生成模型具備理解物體幾何與光線互動的物理直覺,需要極度精準的光照變化標註數據。研究團隊利用現代 3D 渲染軟體 Blender 的路徑追蹤渲染引擎 Cycles,搭配經過篩選的 Objaverse 3D 模型庫以及程式化生成的人體資產,構建出具備物理基礎的龐大合成訓練集。

在這批合成數據中,每組場景都會在固定視角下針對光照屬性進行抽樣。系統配置了多達 64 種點光源位置,並從近 600 張高動態範圍環境貼圖中隨機提取環境光源。針對畫面中實體可見的光源控制,團隊額外人工標註了 83 個室內場景的燈具發光貢獻,藉此渲染出約 100,000 張具備精準遮罩的影像,提供逐一燈光開啟或關閉的成對標註。

為避免窮舉所有光照組合導致算力浪費,訓練圖像是採用動態合成的方式加載。系統會將環境光渲染圖與特定屬性的獨立光源圖,透過線性組合與色調映射動態疊加。為了彌補純合成數據帶來的領域偏差,團隊更加入了約 600 張在真實辦公室場景中切換實體燈具的高畫質照片,進一步強化模型在真實世界圖片上的泛化能力。

拋棄幾何重建的場景無關 3D 光照座標系統

多數支援 3D 光源放置的神經渲染系統會試圖先重建場景的 2.5D 或 3D 空間表示,再將光源錨定其中。然而 TokenLight 的核心設計理念是徹底跳過幾何重建步驟,直接訓練模型學習場景與光線的互動關係。這帶來了一個挑戰:如何在沒有 3D 空間資訊的 2D 畫布上,讓模型正確解讀使用者輸入的 3D 座標。

為此,團隊設計了一套與場景無關(Scene-Agnostic)的相機與光照參考座標系統。系統預先定義了一個包含相機與光照採樣空間的標準參考區域。所有輸入神經網路的光照參數——包含空間座標、尺寸與強度——都是相對於這個局部參考空間來描述。透過三維相似變換,這個空間可以自由平移、旋轉或縮放,以涵蓋畫面中的任何物體區域。

當參考立方體縮放時,模型會根據反平方定律自動調整光源能量,並等比例改變光源半徑以維持視覺上的角直徑一致。這項設計不僅將空間光源與特定相機視角解耦,也確保了在推論階段,即使輸入圖像的真實相機焦距未知,系統依舊能依賴正規化的參考座標精準打光,避免傳統方法中光照位置會隨鏡頭角度漂移的問題。

半透明材質與局部遮擋測試展現的物理理解力

在驗證模型對 3D 光照位置的敏感度時,研究團隊透過沿著三條軸線連續移動光源,建立了一個包含 50 個物件的混淆矩陣量化測試。測試結果顯示,TokenLight 不僅能精準分辨微小位置偏移,其誤差收斂度更超越了依賴環境貼圖轉換的 Neural Gaffer 與 DiffusionRenderer 等基線模型。

除了定量數據,該模型在面對極端複雜的物理現象時更展現出驚人的理解力。過去的方法在處理重度遮擋或半透明材質時經常崩潰,但 TokenLight 可以在無需明確建立透明度映射的狀況下,為半透明玻璃製品生成具備折射感與透光陰影的逼真結果;使用者甚至能將虛擬光源塞進一棵南瓜的實體內部,渲染出由內而外發光的傑克南瓜燈效果。

在實際的室內修圖情境中,將畫面上的空間遮罩與光照強度標記結合,即可在 2D 照片中創造開關燈具的動態。在測試真實世界捕捉的 VisibleFixture-60 資料集時,將燈具設定為「關閉」狀態,模型不但會抹去燈泡的亮度,還能精準抽離該燈具原本投射在周圍牆面與桌上的幾何陰影,證明網絡已從合成數據中內化了高度可靠的光學幾何邏輯。

TokenLight 藉由屬性標記繞開複雜的 3D 重建,讓精確的物理佈光控制直接降維至 2D 圖像生成領域。

Abstract

This paper presents a method for image relighting that enables precise and continuous control over multiple illumination attributes in a photograph. We formulate relighting as a conditional image generation task and introduce attribute tokens to encode distinct lighting factors such as intensity, color, ambient illumination, diffuse level, and 3D light positions. The model is trained on a large-scale synthetic dataset with ground-truth lighting annotations, supplemented by a small set of real captures to enhance realism and generalization. We validate our approach across a variety of relighting tasks, including controlling in-scene lighting fixtures and editing environment illumination using virtual light sources, on synthetic and real images. Our method achieves state-of-the-art quantitative and qualitative performance compared to prior work. Remarkably, without explicit inverse rendering supervision, the model exhibits an inherent understanding of how light interacts with scene geometry, occlusion, and materials, yielding convincing lighting effects even in traditionally challenging scenarios such as placing lights within objects or relighting transparent materials plausibly. Project page: vrroom.github.io/tokenlight/