arXiv Full Text 2026-04-17

Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction

Haato Watanabe, Nobuyuki Umetani

AI 導讀 technology AI 重要性 4/5

東京大學提出 Neural Gabor Splatting，透過神經網路基元在 5% 極限預算下實現高畫質即時渲染。

替高斯基元植入微型網路，打破單一色彩表達限制。
利用快速傅立葉轉換計算頻域誤差，精準控管資源。
在僅 5% 的極端數據預算下，仍可維持高頻細節渲染。

3D 高斯潑濺技術處理複雜場景紋理時，常引發高達數 GB 的記憶體暴增。東京大學團隊提出 Neural Gabor Splatting，替單一高斯基元植入微型多層感知機網路，在僅 5% 數據預算下仍能精準渲染高頻細節，並維持最高 500 FPS 即時幀率。

3DGS 在高頻表面重建的記憶體暴增困境

要理解這項研究的突破，首先必須檢視傳統 3D 高斯潑濺（3DGS）架構的核心限制。在 3DGS 與後續改良的 2D 高斯潑濺（2DGS）中，整個 3D 場景被拆解為無數個半透明的橢球體或平面基元（primitives）。每個基元由一組精確的參數定義，包含三維座標位置、縮放比例、旋轉角度、不透明度，以及用於計算色彩的球諧函數（Spherical Harmonics）。這種明確的三維空間表示法允許系統跳過耗時的體積光線投射，直接利用硬體光柵化技術達成即時渲染。

然而，傳統高斯基元存在一個物理弱點：在任何單一觀看視角下，一個基元只能呈現「單一純色」。當攝影機對準平滑白牆時，少數幾個大型基元就能覆蓋表面；但當場景中包含高頻外觀細節（例如黑白相間的棋盤格、動物毛髮或磚牆縫隙）時，為了解析這些銳利的色彩過渡，系統會被迫將大基元分裂成無數個極小基元。這意味著越是精細的表面，所需的基元數量就會呈指數級增長，帶來龐大負擔。

過去的研究嘗試從不同技術角度解決資料量暴增問題。有些團隊專注於參數壓縮演算法，試圖用更少的位元數儲存基元資訊；另一些學者則試圖改變基元本質，例如導入 3D Gabor 雜訊函數，或是為每個基元綁定一個可學習的小型紋理貼圖（Textured Gaussians）。但這些方法往往受限於預先定義的數學函數，或者受限於貼圖本身的固定解析度，在面對變化多端的場景時，依然無法在受限的儲存空間內還原高保真視覺細節。

Neural Gabor 賦予單一基元高頻色彩渲染力

為了徹底打破「單一基元單一色彩」的枷鎖，東京大學團隊提出的 Neural Gabor Splatting 從根本上改變了基元內部色彩生成的運作機制。他們捨棄了依賴球諧函數係數計算視角色彩的傳統作法，改為在每一個 2D 高斯平面上，附加上一個輕量級的 MLP（多層感知機，一種基礎的人工神經網路架構）。這個微型神經網路具備極簡結構，僅包含單一隱藏層與 6 個神經元，並且擁有自己獨立的網路權重。

在影像運算過程中，這個專屬的 MLP 會接收兩組關鍵資訊作為輸入：第一組是射線與該高斯基元平面交會時的二維局部座標，第二組則是當前攝影機的觀看視角方向。透過採用 SIREN（正弦表徵網路）架構，利用正弦函數作為激活函數，微型網路隱式地執行了位置編碼，使其天生具備捕捉高頻訊號的能力。當這五個維度的輸入數據進入網路後，MLP 就能直接輸出該交會點的精確 RGB 顏色。

因為神經網路內部進行了高度非線性轉換，它能夠完美融合空間座標與視角方向，進而精準模擬出複雜的高光反射與各向異性物理效應。與離散的像素貼圖不同，這是一種完全連續的數學表達式，不會受到網格解析度的限制。透過將複雜的色彩模式「壓縮」進微型網路權重中，單一個 Neural Gabor 基元就能覆蓋原本需要數十個傳統基元才能表現的表面，從根本上削減了場景的記憶體足跡。

頻率感知緻密化演算法精準壓制無效增生

除了改變色彩的底層表示法，團隊還必須克服模型訓練階段的增生難題。3DGS 之所以能精準擬合幾何結構，很大程度歸功於自適應緻密化（Adaptive Densification）機制。傳統做法會定期檢查基元的空間梯度，發現渲染誤差過大就會將其分裂或複製。但是，由於 Neural Gabor 神經基元本身就能呈現劇烈色彩變化，若直接套用傳統的梯度判斷，系統會誤以為這些高頻紋理是「結構誤差」，導致無意義的瘋狂增生。

為抑制過度緻密化現象，團隊開發了一套創新的頻域感知緻密化策略。他們不再單純依靠像素級的亮度差異來判斷誤差，而是利用 FFT（快速傅立葉轉換）將渲染畫面與真實相片同步轉換到頻率域。系統會針對 0.01 到 0.40 的特定頻段進行篩選比對，藉此精準計算出缺乏高頻結構的「頻域誤差圖」。

這項機制的巧妙之處在於，只有當頻域誤差圖顯示局部區域確實缺乏高頻細節時，演算法才會允許該位置的基元進行分裂。透過局部均值濾波器的處理，這個誤差指標對微小的方向性錯位具有極高的容忍度。由於這項檢查每 100 次迭代才執行一次，且 FFT 運算在現代 GPU 上能高度平行化處理，因此幾乎沒有增加額外的運算時間，卻成功達成將運算資源投注在刀口上的最佳化目標。

極限預算對決與基準資料集效能全面驗證

為了驗證演算法的實戰價值，研究團隊在包含 Mip-NeRF360、DTU 以及專門的高頻資料集上進行了廣泛評估。為了確保對比公平，實驗嚴格控制了各個演算法的總資料容量上限。在總體記憶體消耗相同的前提下，無論是測量失真率的 PSNR 還是評估結構相似度的 SSIM 指標，Neural Gabor Splatting 在幾乎所有場景中都以顯著的差距擊敗了傳統的 3DGS、2DGS 與 3D Gabor Splatting。

更具指標意義的是團隊進行的極限預算壓力測試。他們逐步將最大允許記憶體空間從原本的 100% 縮減至 1%。在資料預算被極度壓縮到只剩 5% 的環境下，諸如 NEST 或 NTS 這類依賴三平面或雜湊網格的神經渲染基準模型，因為底層結構佔用龐大固定開銷，畫面開始出現嚴重的破圖與結構崩塌。相反地，Neural Gabor 受益於基元內部獨立的輕量網路，即使基元總數稀少，依舊能維持正確幾何表面與清晰紋理邊緣。

在實際運行的流暢度測試中，儘管架構變得更為複雜，該方法在多數測試場景中的渲染幀率皆能維持在 30 到 500 FPS 之間。這項數據證明，即使替每個基元掛載了神經網路運算，整體架構依然完全具備即時互動與邊緣設備應用的潛力。

運算時間權衡與未來神經渲染的發展突破口

任何底層架構的革新不可避免會帶來特定的代價。儘管 Neural Gabor Splatting 在渲染品質與記憶體壓縮比上取得優異成果，但相較於傳統的純量 2DGS 運算，其訓練時間大約增加了一倍。這主要歸因於在反向傳播過程中，每個神經基元的獨立 MLP 都需要執行額外的權重更新與底層的原子加法（atomicAdd）操作。

此外，目前的設計主要針對具備明確邊界的高頻固體表面進行最佳化。若要將其應用於煙霧、雲朵等具有強烈半透明體積特性的場景，或者延伸到隨時間變化的動態四維空間，仍需要克服複雜的時空對齊難題。而針對那些僅有平坦大色塊的低頻場景，強迫為每一個基元配置神經網路也略顯效能浪費。

研究團隊在結論中指出，這項成果為輕量化神經表徵開闢了一條新路徑。未來若能導入網路參數共享機制，讓空間上鄰近或性質相似的基元共用同一組網路權重，或是結合基於編碼本的量化壓縮技術，將有機會進一步消除冗餘開銷。這不但能大幅縮短模型訓練時間，更為在硬體資源受限的擴增實境設備上實現超高解析度物理渲染，提供了極具潛力的基礎框架。

替高斯基元植入專屬微型神經網路與頻域感知能力，成功在極端記憶體限制下破解了高頻紋理渲染難題。

Abstract

Recent years have witnessed the rapid emergence of 3D Gaussian splatting (3DGS) as a powerful approach for 3D reconstruction and novel view synthesis. Its explicit representation with Gaussian primitives enables fast training, real-time rendering, and convenient post-processing such as editing and surface reconstruction. However, 3DGS suffers from a critical drawback: the number of primitives grows drastically for scenes with high-frequency appearance details, since each primitive can represent only a single color, requiring multiple primitives for every sharp color transition. To overcome this limitation, we propose neural Gabor splatting, which augments each Gaussian primitive with a lightweight multi-layer perceptron that models a wide range of color variations within a single primitive. To further control primitive numbers, we introduce a frequency-aware densification strategy that selects mismatch primitives for pruning and cloning based on frequency energy. Our method achieves accurate reconstruction of challenging high-frequency surfaces. We demonstrate its effectiveness through extensive experiments on both standard benchmarks, such as Mip-NeRF360 and High-Frequency datasets (e.g., checkered patterns), supported by comprehensive ablation studies.

Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction

3DGS 在高頻表面重建的記憶體暴增困境

Neural Gabor 賦予單一基元高頻色彩渲染力

頻率感知緻密化演算法精準壓制無效增生

極限預算對決與基準資料集效能全面驗證

運算時間權衡與未來神經渲染的發展突破口

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

SPLIT 框架透過多重數據分割與測量域損失，成功讓 5 通道多光譜 CT 在零真實影像下完成非線性自監督重建。

ERR 框架透過頻譜解耦分三階段修復影像，同時釋出 82,126 張 UHD 測試影像庫。