Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction

Haato Watanabe, Nobuyuki Umetani

View Original ↗
AI 導讀 technology AI 重要性 4/5

東京大學提出 Neural Gabor Splatting,透過神經網路基元在 5% 極限預算下實現高畫質即時渲染。

  • 替高斯基元植入微型網路,打破單一色彩表達限制。
  • 利用快速傅立葉轉換計算頻域誤差,精準控管資源。
  • 在僅 5% 的極端數據預算下,仍可維持高頻細節渲染。

3D 高斯潑濺技術處理複雜場景紋理時,常引發高達數 GB 的記憶體暴增。東京大學團隊提出 Neural Gabor Splatting,替單一高斯基元植入微型多層感知機網路,在僅 5% 數據預算下仍能精準渲染高頻細節,並維持最高 500 FPS 即時幀率。

3DGS 在高頻表面重建的記憶體暴增困境

要理解這項研究的突破,首先必須檢視傳統 3D 高斯潑濺(3DGS)架構的核心限制。在 3DGS 與後續改良的 2D 高斯潑濺(2DGS)中,整個 3D 場景被拆解為無數個半透明的橢球體或平面基元(primitives)。每個基元由一組精確的參數定義,包含三維座標位置、縮放比例、旋轉角度、不透明度,以及用於計算色彩的球諧函數(Spherical Harmonics)。這種明確的三維空間表示法允許系統跳過耗時的體積光線投射,直接利用硬體光柵化技術達成即時渲染。

然而,傳統高斯基元存在一個物理弱點:在任何單一觀看視角下,一個基元只能呈現「單一純色」。當攝影機對準平滑白牆時,少數幾個大型基元就能覆蓋表面;但當場景中包含高頻外觀細節(例如黑白相間的棋盤格、動物毛髮或磚牆縫隙)時,為了解析這些銳利的色彩過渡,系統會被迫將大基元分裂成無數個極小基元。這意味著越是精細的表面,所需的基元數量就會呈指數級增長,帶來龐大負擔。

過去的研究嘗試從不同技術角度解決資料量暴增問題。有些團隊專注於參數壓縮演算法,試圖用更少的位元數儲存基元資訊;另一些學者則試圖改變基元本質,例如導入 3D Gabor 雜訊函數,或是為每個基元綁定一個可學習的小型紋理貼圖(Textured Gaussians)。但這些方法往往受限於預先定義的數學函數,或者受限於貼圖本身的固定解析度,在面對變化多端的場景時,依然無法在受限的儲存空間內還原高保真視覺細節。

Neural Gabor 賦予單一基元高頻色彩渲染力

為了徹底打破「單一基元單一色彩」的枷鎖,東京大學團隊提出的 Neural Gabor Splatting 從根本上改變了基元內部色彩生成的運作機制。他們捨棄了依賴球諧函數係數計算視角色彩的傳統作法,改為在每一個 2D 高斯平面上,附加上一個輕量級的 MLP(多層感知機,一種基礎的人工神經網路架構)。這個微型神經網路具備極簡結構,僅包含單一隱藏層與 6 個神經元,並且擁有自己獨立的網路權重。

在影像運算過程中,這個專屬的 MLP 會接收兩組關鍵資訊作為輸入:第一組是射線與該高斯基元平面交會時的二維局部座標,第二組則是當前攝影機的觀看視角方向。透過採用 SIREN(正弦表徵網路)架構,利用正弦函數作為激活函數,微型網路隱式地執行了位置編碼,使其天生具備捕捉高頻訊號的能力。當這五個維度的輸入數據進入網路後,MLP 就能直接輸出該交會點的精確 RGB 顏色。

因為神經網路內部進行了高度非線性轉換,它能夠完美融合空間座標與視角方向,進而精準模擬出複雜的高光反射與各向異性物理效應。與離散的像素貼圖不同,這是一種完全連續的數學表達式,不會受到網格解析度的限制。透過將複雜的色彩模式「壓縮」進微型網路權重中,單一個 Neural Gabor 基元就能覆蓋原本需要數十個傳統基元才能表現的表面,從根本上削減了場景的記憶體足跡。

頻率感知緻密化演算法精準壓制無效增生

除了改變色彩的底層表示法,團隊還必須克服模型訓練階段的增生難題。3DGS 之所以能精準擬合幾何結構,很大程度歸功於自適應緻密化(Adaptive Densification)機制。傳統做法會定期檢查基元的空間梯度,發現渲染誤差過大就會將其分裂或複製。但是,由於 Neural Gabor 神經基元本身就能呈現劇烈色彩變化,若直接套用傳統的梯度判斷,系統會誤以為這些高頻紋理是「結構誤差」,導致無意義的瘋狂增生。

為抑制過度緻密化現象,團隊開發了一套創新的頻域感知緻密化策略。他們不再單純依靠像素級的亮度差異來判斷誤差,而是利用 FFT(快速傅立葉轉換)將渲染畫面與真實相片同步轉換到頻率域。系統會針對 0.01 到 0.40 的特定頻段進行篩選比對,藉此精準計算出缺乏高頻結構的「頻域誤差圖」。

這項機制的巧妙之處在於,只有當頻域誤差圖顯示局部區域確實缺乏高頻細節時,演算法才會允許該位置的基元進行分裂。透過局部均值濾波器的處理,這個誤差指標對微小的方向性錯位具有極高的容忍度。由於這項檢查每 100 次迭代才執行一次,且 FFT 運算在現代 GPU 上能高度平行化處理,因此幾乎沒有增加額外的運算時間,卻成功達成將運算資源投注在刀口上的最佳化目標。

極限預算對決與基準資料集效能全面驗證

為了驗證演算法的實戰價值,研究團隊在包含 Mip-NeRF360、DTU 以及專門的高頻資料集上進行了廣泛評估。為了確保對比公平,實驗嚴格控制了各個演算法的總資料容量上限。在總體記憶體消耗相同的前提下,無論是測量失真率的 PSNR 還是評估結構相似度的 SSIM 指標,Neural Gabor Splatting 在幾乎所有場景中都以顯著的差距擊敗了傳統的 3DGS、2DGS 與 3D Gabor Splatting。

更具指標意義的是團隊進行的極限預算壓力測試。他們逐步將最大允許記憶體空間從原本的 100% 縮減至 1%。在資料預算被極度壓縮到只剩 5% 的環境下,諸如 NEST 或 NTS 這類依賴三平面或雜湊網格的神經渲染基準模型,因為底層結構佔用龐大固定開銷,畫面開始出現嚴重的破圖與結構崩塌。相反地,Neural Gabor 受益於基元內部獨立的輕量網路,即使基元總數稀少,依舊能維持正確幾何表面與清晰紋理邊緣。

在實際運行的流暢度測試中,儘管架構變得更為複雜,該方法在多數測試場景中的渲染幀率皆能維持在 30 到 500 FPS 之間。這項數據證明,即使替每個基元掛載了神經網路運算,整體架構依然完全具備即時互動與邊緣設備應用的潛力。

運算時間權衡與未來神經渲染的發展突破口

任何底層架構的革新不可避免會帶來特定的代價。儘管 Neural Gabor Splatting 在渲染品質與記憶體壓縮比上取得優異成果,但相較於傳統的純量 2DGS 運算,其訓練時間大約增加了一倍。這主要歸因於在反向傳播過程中,每個神經基元的獨立 MLP 都需要執行額外的權重更新與底層的原子加法(atomicAdd)操作。

此外,目前的設計主要針對具備明確邊界的高頻固體表面進行最佳化。若要將其應用於煙霧、雲朵等具有強烈半透明體積特性的場景,或者延伸到隨時間變化的動態四維空間,仍需要克服複雜的時空對齊難題。而針對那些僅有平坦大色塊的低頻場景,強迫為每一個基元配置神經網路也略顯效能浪費。

研究團隊在結論中指出,這項成果為輕量化神經表徵開闢了一條新路徑。未來若能導入網路參數共享機制,讓空間上鄰近或性質相似的基元共用同一組網路權重,或是結合基於編碼本的量化壓縮技術,將有機會進一步消除冗餘開銷。這不但能大幅縮短模型訓練時間,更為在硬體資源受限的擴增實境設備上實現超高解析度物理渲染,提供了極具潛力的基礎框架。

替高斯基元植入專屬微型神經網路與頻域感知能力,成功在極端記憶體限制下破解了高頻紋理渲染難題。

Abstract

Recent years have witnessed the rapid emergence of 3D Gaussian splatting (3DGS) as a powerful approach for 3D reconstruction and novel view synthesis. Its explicit representation with Gaussian primitives enables fast training, real-time rendering, and convenient post-processing such as editing and surface reconstruction. However, 3DGS suffers from a critical drawback: the number of primitives grows drastically for scenes with high-frequency appearance details, since each primitive can represent only a single color, requiring multiple primitives for every sharp color transition. To overcome this limitation, we propose neural Gabor splatting, which augments each Gaussian primitive with a lightweight multi-layer perceptron that models a wide range of color variations within a single primitive. To further control primitive numbers, we introduce a frequency-aware densification strategy that selects mismatch primitives for pruning and cloning based on frequency energy. Our method achieves accurate reconstruction of challenging high-frequency surfaces. We demonstrate its effectiveness through extensive experiments on both standard benchmarks, such as Mip-NeRF360 and High-Frequency datasets (e.g., checkered patterns), supported by comprehensive ablation studies.