TokenLight: Precise Lighting Control in Images using Attribute Tokens
免除 3D 重建,TokenLight 依靠物理屬性標記即能在 2D 照片中精準生成複雜遮擋與玻璃折射光影。
- 採用物理屬性標記取代 3D 逆向渲染,擴散模型能直接解析光照變數進行圖像重打光。
- 整合 10 萬張 Blender 合成圖與真實照片訓練,模型徹底內化了光學幾何與遮擋邏輯。
- 具備場景無關的參考座標系統,能在 2D 畫面中精準控制光源位置與自然陰影表現。
圖像重新打光技術過去高度仰賴 3D 重建或環境貼圖,但 Adobe 與耶魯大學團隊開發的 TokenLight 打破了這項限制。該模型不需進行顯式逆向渲染,利用包含 10 萬張合成圖的數據集微調預訓練模型,只需單一網絡就能在 2D 圖像精準安插虛擬 3D 光源,連高難度的半透明玻璃陰影皆能自然生成。
突破環境貼圖局限的 TokenLight 條件生成架構
過去的圖像重打光(Image Relighting)技術多仰賴全景環境貼圖或逆向渲染。前者無法控制近場或局部光影,後者必須重建場景的 3D 幾何結構與材質,在單一輸入視角的條件下極具挑戰。雖然基於文字提示的擴散模型操作直覺,卻往往缺乏物理精確度,導致生成的光影無法預測。
為了解決這些控制精度上的瓶頸,研究團隊共同開發了條件式圖像生成框架 TokenLight。這套系統放棄了複雜的場景屬性解構,轉而採用物理屬性標記(Attribute Tokens)來表示預期的光照條件。開發團隊將光源的絕對強度、顏色、環境光比例、漫反射程度以及 3D 空間座標等變數,全數抽取並轉換為獨立的神經網絡控制標記。
在運作機制上,純量屬性(如亮度與漫反射參數)會透過高斯傅立葉特徵(Gaussian Fourier features)編碼;向量屬性(如 3D 座標與 RGB 顏色)則被展平為單一標記。這些光照標記會與經過變分自編碼器(VAE)處理的輸入圖像標記串聯成序列,交由基於流匹配(Flow-matching)訓練的擴散變換器(Diffusion Transformer)進行全自注意力運算,讓網絡在同一個潛在空間中同時處理空間內容與光照邏輯。
結合 10 萬張 Blender 渲染圖的混合訓練策略
要讓生成模型具備理解物體幾何與光線互動的物理直覺,需要極度精準的光照變化標註數據。研究團隊利用現代 3D 渲染軟體 Blender 的路徑追蹤渲染引擎 Cycles,搭配經過篩選的 Objaverse 3D 模型庫以及程式化生成的人體資產,構建出具備物理基礎的龐大合成訓練集。
在這批合成數據中,每組場景都會在固定視角下針對光照屬性進行抽樣。系統配置了多達 64 種點光源位置,並從近 600 張高動態範圍環境貼圖中隨機提取環境光源。針對畫面中實體可見的光源控制,團隊額外人工標註了 83 個室內場景的燈具發光貢獻,藉此渲染出約 100,000 張具備精準遮罩的影像,提供逐一燈光開啟或關閉的成對標註。
為避免窮舉所有光照組合導致算力浪費,訓練圖像是採用動態合成的方式加載。系統會將環境光渲染圖與特定屬性的獨立光源圖,透過線性組合與色調映射動態疊加。為了彌補純合成數據帶來的領域偏差,團隊更加入了約 600 張在真實辦公室場景中切換實體燈具的高畫質照片,進一步強化模型在真實世界圖片上的泛化能力。
拋棄幾何重建的場景無關 3D 光照座標系統
多數支援 3D 光源放置的神經渲染系統會試圖先重建場景的 2.5D 或 3D 空間表示,再將光源錨定其中。然而 TokenLight 的核心設計理念是徹底跳過幾何重建步驟,直接訓練模型學習場景與光線的互動關係。這帶來了一個挑戰:如何在沒有 3D 空間資訊的 2D 畫布上,讓模型正確解讀使用者輸入的 3D 座標。
為此,團隊設計了一套與場景無關(Scene-Agnostic)的相機與光照參考座標系統。系統預先定義了一個包含相機與光照採樣空間的標準參考區域。所有輸入神經網路的光照參數——包含空間座標、尺寸與強度——都是相對於這個局部參考空間來描述。透過三維相似變換,這個空間可以自由平移、旋轉或縮放,以涵蓋畫面中的任何物體區域。
當參考立方體縮放時,模型會根據反平方定律自動調整光源能量,並等比例改變光源半徑以維持視覺上的角直徑一致。這項設計不僅將空間光源與特定相機視角解耦,也確保了在推論階段,即使輸入圖像的真實相機焦距未知,系統依舊能依賴正規化的參考座標精準打光,避免傳統方法中光照位置會隨鏡頭角度漂移的問題。
半透明材質與局部遮擋測試展現的物理理解力
在驗證模型對 3D 光照位置的敏感度時,研究團隊透過沿著三條軸線連續移動光源,建立了一個包含 50 個物件的混淆矩陣量化測試。測試結果顯示,TokenLight 不僅能精準分辨微小位置偏移,其誤差收斂度更超越了依賴環境貼圖轉換的 Neural Gaffer 與 DiffusionRenderer 等基線模型。
除了定量數據,該模型在面對極端複雜的物理現象時更展現出驚人的理解力。過去的方法在處理重度遮擋或半透明材質時經常崩潰,但 TokenLight 可以在無需明確建立透明度映射的狀況下,為半透明玻璃製品生成具備折射感與透光陰影的逼真結果;使用者甚至能將虛擬光源塞進一棵南瓜的實體內部,渲染出由內而外發光的傑克南瓜燈效果。
在實際的室內修圖情境中,將畫面上的空間遮罩與光照強度標記結合,即可在 2D 照片中創造開關燈具的動態。在測試真實世界捕捉的 VisibleFixture-60 資料集時,將燈具設定為「關閉」狀態,模型不但會抹去燈泡的亮度,還能精準抽離該燈具原本投射在周圍牆面與桌上的幾何陰影,證明網絡已從合成數據中內化了高度可靠的光學幾何邏輯。
TokenLight 藉由屬性標記繞開複雜的 3D 重建,讓精確的物理佈光控制直接降維至 2D 圖像生成領域。