傳統 3DGS 人體模型難以處理寬鬆衣物，Cloth-HUGS 透過解耦圖層與物理約束，在 40 分鐘內實現降低 28%

AI 導讀 technology AI 重要性 4/5

傳統 3DGS 人體模型難以處理寬鬆衣物，Cloth-HUGS 透過解耦圖層與物理約束，在 40 分鐘內實現降低 28% LPIPS 誤差的 60 FPS 即時渲染。

採用 3D 高斯濺射技術將人體與衣物解耦為獨立圖層，支援複雜的服裝獨立變形。
整合預訓練模型 SNUG 與 ARAP 正則化等物理法則，大幅提升動態布料的物理真實度。
首創深度感知多通道渲染，精準解決身體、衣物與背景場景間的複雜遮擋與穿模問題。

傳統的 3D 人體重建技術通常將人體與衣物視為單一整體，導致處理寬鬆衣物時邊界模糊且無法分離編輯。最新發布的 Cloth-HUGS 框架打破這項限制，透過 3D 高斯濺射（3DGS）技術將人體與衣物解耦為獨立圖層。這套系統能在單張 NVIDIA L40S GPU 上於 40 分鐘內完成訓練，並實現每秒 60 幀（FPS）的即時渲染，在 NeuMan 數據集上的感知誤差（LPIPS）更大幅降低 28%，為虛擬試穿與數位分身技術帶來全新解法。

擺脫單一整體建模的 3DGS 物理分離框架

神經輻射場（NeRF）過去在單目影片的人體渲染上表現出色，能透過位姿條件變形場重建高保真度的表演者。然而，NeRF 依賴耗時的體積光線投射（Volumetric ray marching），龐大的運算成本嚴重限制了其擴展性與即時部署的可能。近期學界轉向 3D 高斯濺射（3DGS），利用顯式的非等向性高斯基元（Anisotropic Gaussian primitives）進行光柵化渲染以提升速度。然而，現有的 3DGS 人體模型多半將身體與服裝混為單一可變形圖層，這種做法在處理寬鬆衣物或複雜皺褶時，幾何表現力嚴重受限，更無法支援服裝替換等獨立操作。

Cloth-HUGS 框架的核心突破，在於明確將穿衣人體解耦為「身體」與「衣物」兩個獨立的高斯圖層，並放置於共享的標準空間（Canonical space）中。系統採用顯式與隱式結合的 Triplane（三平面）特徵編碼技術，為身體與衣物分配獨立的特徵平面。衣物的特徵平面同時對應上下半身服裝，確保動態表現的連貫性。具體而言，每個 Triplane 包含三個 256x256x32 的特徵平面，透過雙線性採樣組合成 96 維的特徵向量。

透過三個多層感知機（MLP）解碼器，系統能精準預測出每個高斯點的屬性。外觀解碼器負責輸出球諧函數（Spherical-harmonic）係數與不透明度；幾何解碼器預測位置、旋轉與縮放的修正量，並採用 Gram-Schmidt 正交化將 6D 旋轉表徵轉換為 SO(3) 空間；變形解碼器則計算出線性混合蒙皮（LBS）權重與位姿相關的偏移量，藉由 SMPL（參數化人體模型）骨架驅動高斯點的運動，精準模擬肌肉變形與衣物皺褶。

結合 SNUG 模型與 ARAP 的物理法則約束

要讓虛擬衣物的動態看起來真實，單靠純視覺影像的監督並不夠。Cloth-HUGS 在初始化階段，利用預訓練的服裝生成模型 SNUG 建立 T-pose 狀態下的衣物網格，作為偽真實（Pseudo-ground-truth）幾何標準。身體部分的高斯點則由 SMPL 的頂點位置、表面法線與局部邊長數據進行初始化。為了確保衣物隨人體動作自然擺動，研究團隊在訓練過程中導入了四項強大的物理與幾何約束條件。

首先是線性混合蒙皮（LBS）權重正則化，系統將衣物頂點映射到最接近的 SMPL 頂點以獲取參考權重，並設定高達 1000.0 的權重係數，確保布料能緊密跟隨肢體骨架運動。其次，透過雙向倒角距離（Bidirectional Chamfer distance）計算模擬對齊損失（Simulation Alignment），確保預測出的衣物幾何形狀與 SNUG 輸出的網格高度吻合。

為了維持布料局部的結構穩定性，避免在極端動作下發生破面或扭曲，系統加入了 ARAP（盡可能保持剛性，As-rigid-as-possible）正則化，計算並限制相鄰頂點間距離的變異數。最後，配合遮罩一致性（Mask Consistency）損失函數，透過計算渲染結果與真實衣物遮罩之間的 L2 距離，確保渲染出的衣物輪廓與攝影機捕捉到的真實畫面絲毫不差。

解決遮擋難題的深度感知多通道渲染技術

將身體與衣物分離後，隨之而來的挑戰是處理不同圖層與背景環境之間的複雜遮擋關係。例如當手臂交叉放在胸前，或是寬鬆裙襬覆蓋腿部時，傳統的單一通道 alpha 混合技術在處理多層半透明或相互穿透的邊界時，極易產生破圖或深度錯亂的偽影。為此，Cloth-HUGS 提出了一套深度感知多通道渲染（Depth-Aware Multi-Pass Rendering） 策略。

在第一道渲染通道中，系統會將身體與場景的高斯點合併，利用標準的透明度混合技術生成基礎影像（Base Image），並透過嚴格的深度測試確保人體與環境間的遮擋關係正確。第二道通道則專注於渲染衣物高斯點，透過球諧函數係數生成專屬的衣物圖層。

這個流程的精華在於「深度遮罩（Depth Matte）」的計算。系統會將衣物與場景高斯點共同渲染，賦予二進位色彩配置，藉此得出一個介於 0 到 1 之間的可見度矩陣。在最終的合成階段，系統透過逐元素相乘的算式將衣物層與基礎影像完美疊加。這種機制不僅徹底解決了身體穿模的問題，保留了布料邊緣的半透明混合效果，還能獨立提取純場景視角，在維持 3D 高斯濺射高效能的同時，實現符合物理邏輯的合成效果。

NeuMan 與 ZJU-MoCap 數據集的實測效能

在硬體與訓練效率方面，Cloth-HUGS 展現出極高的實用價值。模型在初始位置學習率設定為 1.6×10^-4 並逐步衰減的條件下，於單張 NVIDIA L40S GPU 上以 512x512 解析度進行 2 萬次迭代訓練。整個序列大約在 40 分鐘即可完全收斂，這代表即使加入了複雜的衣物網格與物理監督機制，其訓練成本依然與未加入衣物層的基線模型保持在同一水平。

測試評估橫跨了多個具挑戰性的開源數據集。其中包含了具備多視角重建場景的 NeuMan 數據集（涵蓋西雅圖、停車場、慢跑等 10-20 秒動態影片），以及在攝影棚內具備精準相機校正的 ZJU-MoCap 資料集（針對受試者 377、386 等多組動作進行單一視角輸入、22 個視角驗證）。

量化數據顯示，得益於物理約束與獨立的衣物圖層設計，Cloth-HUGS 在應對人類複雜且快速的運動時，能維持極高的時間連貫性（Temporally coherent cloth dynamics）。與當前業界領先的基準模型相比，其在 NeuMan 數據集上的感知相似度指標（LPIPS）平均下降了 28%，有效消除了傳統方法常見的模糊與失真。同時，在峰值信噪比（PSNR）、結構相似性（SSIM）以及 Fréchet Inception 距離（FID）等衡量畫質與分佈差異的核心指標上，皆呈現全面且穩定的提升。

透過 3DGS 分離人體與衣物圖層並導入 ARAP 等物理約束，Cloth-HUGS 在 40 分鐘訓練內實現了 60 FPS 的高保真渲染，為數位分身與虛擬試穿技術立下新的效能標竿。

Abstract

We present Cloth-HUGS, a Gaussian Splatting based neural rendering framework for photorealistic clothed human reconstruction that explicitly disentangles body and clothing. Unlike prior methods that absorb clothing into a single body representation and struggle with loose garments and complex deformations, Cloth-HUGS represents the performer using separate Gaussian layers for body and cloth within a shared canonical space. The canonical volume jointly encodes body, cloth, and scene primitives and is deformed through SMPL-driven articulation with learned linear blend skinning weights. To improve cloth realism, we initialize cloth Gaussians from mesh topology and apply physics-inspired constraints, including simulation-consistency, ARAP regularization, and mask supervision. We further introduce a depth-aware multi-pass rendering strategy for robust body-cloth-scene compositing, enabling real-time rendering at over 60 FPS. Experiments on multiple benchmarks show that Cloth-HUGS improves perceptual quality and geometric fidelity over state-of-the-art baselines, reducing LPIPS by up to 28% while producing temporally coherent cloth dynamics.

CLOTH-HUGS: Cloth Aware Human Gaussian Splatting

擺脫單一整體建模的 3DGS 物理分離框架

結合 SNUG 模型與 ARAP 的物理法則約束

解決遮擋難題的深度感知多通道渲染技術

NeuMan 與 ZJU-MoCap 數據集的實測效能

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

SPLIT 框架透過多重數據分割與測量域損失，成功讓 5 通道多光譜 CT 在零真實影像下完成非線性自監督重建。

ERR 框架透過頻譜解耦分三階段修復影像，同時釋出 82,126 張 UHD 測試影像庫。