Splats in Splats++: Robust and Generalizable 3D Gaussian Splatting Steganography

Yijia Guo, Wenkai Huang, Tong Hu, Gaolei Li, Yang Li, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

Splats in Splats++ 框架透過球諧函數分級加密與雜湊網格映射,在 3DGS 模型中無縫嵌入 3D/4D 隱藏資訊,保真度提升 6.28 dB 且渲染加速 3 倍。

  • 利用球諧函數高階頻率冗餘特性,將機密資訊寫入不影響視覺感知的位元層級。
  • 首創雜湊網格引導的不透明度映射,確保原始場景與隱藏場景的空間幾何緊密耦合。
  • 引入梯度門控一致性損失,成功抵禦針對 3DGS 特性的 GSPure 惡意剪枝結構攻擊。

3D 高斯濺射(3DGS)正迅速成為新一代數位資產的標準格式。然而,這種高度顯式且易於複製的資料結構,讓版權保護面臨嚴峻挑戰。北京大學與上海交通大學等團隊提出的 Splats in Splats++ 框架,成功將高容量的 3D 與 4D 隱藏資訊無縫嵌入原生模型中。這套機制在隱藏訊息保真度上超越現有方案達 6.28 dB,更將渲染速度大幅提升 3 倍,為 3D 內容生態系建立可靠的護城河。

3D 數位資產面臨的版權考驗與隱寫術標準

建構在顯式輻射場上的 3DGS 模型,本質上是一個包含空間座標、旋轉矩陣、縮放比例、不透明度與球諧函數(Spherical Harmonics, SH)的龐大屬性集合。這種直接且透明的資料結構雖然帶來了極高的運算效率,卻也讓模型變得極易遭到竊取或竄改。要在這類高價值數位資產中嵌入版權資訊,不僅是一項單純的訊號隱藏工程,更是一個複雜的表徵耦合問題。

過去針對神經輻射場(NeRF)或傳統 2D 影像開發的數位浮水印技術,往往無法直接套用到 3DGS 上。研究團隊指出,一套合格的 3DGS 隱寫術必須滿足三大標準:首先是可用性,嵌入過程不能破壞原始模型的渲染管線與下游任務;其次是魯棒性,隱藏資訊必須能抵抗常規處理與惡意抹除;最後是容量,必須能容納足夠豐富的 3D 甚至 4D 資訊。早期的 3DGS 隱寫方案(如 GS-Hider 或 SecureGS)往往犧牲了原始渲染速度,或者在面對輕微的結構擾動時就會發生資訊外洩,難以兼顧上述三大要求。

挖掘球諧函數頻譜特性的分級加密機制

為了解決大容量資訊嵌入與視覺破壞之間的矛盾,研究團隊將目光轉向了控制 3DGS 視角相依顏色(View-dependent color)的球諧函數。球諧函數在球面上的作用類似於一維空間中的傅立葉轉換,低階頻段對應低頻的基礎色彩,而高階頻段則負責捕捉高頻的複雜光影反射。

深入分析 3DGS 的渲染過程後發現,高頻反射通常只佔據場景極小的比例,這意味著高階球諧函數係數中存在著巨大的資訊冗餘。Splats in Splats++ 巧妙利用了這項特性,提出一種「重要性分級」的係數加密方案。演算法會先清空原始模型高階係數的低位元空間,接著採用反向重要性對齊策略,將隱藏場景中最關鍵的低頻色彩資訊,透過位元級互斥或(XOR)運算寫入原始模型的高階空間中。這種做法在確保高容量嵌入的同時,達到了幾乎無法被人眼察覺的隱蔽效果。

雜湊網格引導重建不透明度潛在流形

除了色彩資訊,3DGS 幾何結構的核心在於高斯原語的「不透明度(Opacity)」。如果在嵌入隱藏場景時,單純依賴點對點的屬性映射,極易引發幾何特徵的模糊與錯位,導致隱藏訊息在渲染時產生偽影,或輕易遭到結構性攻擊破壞。

為了解除這種幾何歧義,框架導入了一套雜湊網格引導的不透明度映射(Hash-Grid Guided Opacity Mapping)機制。系統透過多解析度雜湊網格,將離散的高斯空間座標轉換為連續的潛在空間特徵描述子。這些空間特徵會與原始場景的不透明度及色彩係數結合,再交由一個輕量級的多層感知器(MLP)進行解碼,精準推導出隱藏場景的不透明度分佈。此設計不僅保留了原始空間的幾何先驗知識,還能將解密金鑰壓縮在體積極小的神經網路權重內,實現高效復原。

梯度門控一致性損失抵禦惡意剪枝攻擊

確保隱藏資訊不會輕易被抹除,是評估版權保護機制的重要指標。在 3DGS 的資產防禦測試中,攻擊者經常使用不透明度剪枝(Opacity pruning)或專門針對隱寫術開發的 GSPure 演算法,試圖在不影響主要場景視覺品質的前提下,剔除攜帶浮水印的冗餘高斯點。

面對這類針對結構特性的攻擊,Splats in Splats++ 採用了自適應的聯合最佳化策略。團隊設計了一種基於不透明度梯度分佈的門控機制與一致性損失函數(Consistency Loss)。該機制會評估空間中各個高斯原語的穩定程度,放寬外觀頻繁變動區域的限制,但強制要求原始場景與隱藏場景在穩定且可見度高的區域共用相同的幾何支撐結構。透過這種深度的空間耦合,攻擊者若企圖破壞隱藏訊息,勢必會無可避免地摧毀原始 3D 模型的基礎幾何,從而大幅提升了資產的安全性。

支援 4D 動態資產擴展與渲染效能突破

經過大規模實驗驗證,這種基於原生架構的聯合最佳化方案展現出壓倒性的優勢。在 NeRF Synthetic、Tanks and Temples 以及 Mip-NeRF360 等多個指標性資料集上,新框架徹底消除了以往方法常見的錯誤紋理與色彩偽影。不僅在隱藏場景的峰值信噪比(PSNR)上取得了高達 6.28 dB 的顯著領先,更因為維持了純粹的 3DGS 資料格式,使其渲染更新率(FPS)達到了先前技術的 3 倍之多。

除了靜態場景,這套框架的泛化能力同樣令人矚目。實驗證實其不僅能相容於 2D 影像嵌入,更成功擴展至 D-NeRF 與 HyperNeRF 等動態資料集,實現了 4DGS 的時空資訊隱寫。這意味著無論是靜態的電商商品展示,還是複雜的動態數位替身,都能在完全不影響常規渲染管線與下游任務應用的前提下,獲得最高層級的版權保護能力。

真正的 3D 版權保護不在於單純隱藏訊號,而是將加密資訊與核心空間幾何深度耦合,讓惡意移除浮水印的代價等同於摧毀資產本身。

Abstract

3D Gaussian Splatting (3DGS) has recently redefined the paradigm of 3D reconstruction, striking an unprecedented balance between visual fidelity and computational efficiency. As its adoption proliferates, safeguarding the copyright of explicit 3DGS assets has become paramount. However, existing invisible message embedding frameworks struggle to reconcile secure and high-capacity data embedding with intrinsic asset utility, often disrupting the native rendering pipeline or exhibiting vulnerability to structural perturbations. In this work, we present \textbf{\textit{Splats in Splats++}}, a unified and pipeline-agnostic steganography framework that seamlessly embeds high-capacity 3D/4D content directly within the native 3DGS representation. Grounded in a principled analysis of the frequency distribution of Spherical Harmonics (SH), we propose an importance-graded SH coefficient encryption scheme that achieves imperceptible embedding without compromising the original expressive power. To fundamentally resolve the geometric ambiguities that lead to message leakage, we introduce a \textbf{Hash-Grid Guided Opacity Mapping} mechanism. Coupled with a novel \textbf{Gradient-Gated Opacity Consistency Loss}, our formulation enforces a stringent spatial-attribute coupling between the original and hidden scenes, effectively projecting the discrete attribute mapping into a continuous, attack-resilient latent manifold. Extensive experiments demonstrate that our method substantially outperforms existing approaches, achieving up to \textbf{6.28 db} higher message fidelity, \textbf{3$\times$} faster rendering, and exceptional robustness against aggressive 3D-targeted structural attacks (e.g., GSPure). Furthermore, our framework exhibits remarkable versatility, generalizing seamlessly to 2D image embedding, 4D dynamic scene steganography, and diverse downstream tasks.