CLOTH-HUGS: Cloth Aware Human Gaussian Splatting
傳統 3DGS 人體模型難以處理寬鬆衣物,Cloth-HUGS 透過解耦圖層與物理約束,在 40 分鐘內實現降低 28% LPIPS 誤差的 60 FPS 即時渲染。
- 採用 3D 高斯濺射技術將人體與衣物解耦為獨立圖層,支援複雜的服裝獨立變形。
- 整合預訓練模型 SNUG 與 ARAP 正則化等物理法則,大幅提升動態布料的物理真實度。
- 首創深度感知多通道渲染,精準解決身體、衣物與背景場景間的複雜遮擋與穿模問題。
傳統的 3D 人體重建技術通常將人體與衣物視為單一整體,導致處理寬鬆衣物時邊界模糊且無法分離編輯。最新發布的 Cloth-HUGS 框架打破這項限制,透過 3D 高斯濺射(3DGS)技術將人體與衣物解耦為獨立圖層。這套系統能在單張 NVIDIA L40S GPU 上於 40 分鐘內完成訓練,並實現每秒 60 幀(FPS)的即時渲染,在 NeuMan 數據集上的感知誤差(LPIPS)更大幅降低 28%,為虛擬試穿與數位分身技術帶來全新解法。
擺脫單一整體建模的 3DGS 物理分離框架
神經輻射場(NeRF)過去在單目影片的人體渲染上表現出色,能透過位姿條件變形場重建高保真度的表演者。然而,NeRF 依賴耗時的體積光線投射(Volumetric ray marching),龐大的運算成本嚴重限制了其擴展性與即時部署的可能。近期學界轉向 3D 高斯濺射(3DGS),利用顯式的非等向性高斯基元(Anisotropic Gaussian primitives)進行光柵化渲染以提升速度。然而,現有的 3DGS 人體模型多半將身體與服裝混為單一可變形圖層,這種做法在處理寬鬆衣物或複雜皺褶時,幾何表現力嚴重受限,更無法支援服裝替換等獨立操作。
Cloth-HUGS 框架的核心突破,在於明確將穿衣人體解耦為「身體」與「衣物」兩個獨立的高斯圖層,並放置於共享的標準空間(Canonical space)中。系統採用顯式與隱式結合的 Triplane(三平面)特徵編碼技術,為身體與衣物分配獨立的特徵平面。衣物的特徵平面同時對應上下半身服裝,確保動態表現的連貫性。具體而言,每個 Triplane 包含三個 256x256x32 的特徵平面,透過雙線性採樣組合成 96 維的特徵向量。
透過三個多層感知機(MLP)解碼器,系統能精準預測出每個高斯點的屬性。外觀解碼器負責輸出球諧函數(Spherical-harmonic)係數與不透明度;幾何解碼器預測位置、旋轉與縮放的修正量,並採用 Gram-Schmidt 正交化將 6D 旋轉表徵轉換為 SO(3) 空間;變形解碼器則計算出線性混合蒙皮(LBS)權重與位姿相關的偏移量,藉由 SMPL(參數化人體模型)骨架驅動高斯點的運動,精準模擬肌肉變形與衣物皺褶。
結合 SNUG 模型與 ARAP 的物理法則約束
要讓虛擬衣物的動態看起來真實,單靠純視覺影像的監督並不夠。Cloth-HUGS 在初始化階段,利用預訓練的服裝生成模型 SNUG 建立 T-pose 狀態下的衣物網格,作為偽真實(Pseudo-ground-truth)幾何標準。身體部分的高斯點則由 SMPL 的頂點位置、表面法線與局部邊長數據進行初始化。為了確保衣物隨人體動作自然擺動,研究團隊在訓練過程中導入了四項強大的物理與幾何約束條件。
首先是線性混合蒙皮(LBS)權重正則化,系統將衣物頂點映射到最接近的 SMPL 頂點以獲取參考權重,並設定高達 1000.0 的權重係數,確保布料能緊密跟隨肢體骨架運動。其次,透過雙向倒角距離(Bidirectional Chamfer distance)計算模擬對齊損失(Simulation Alignment),確保預測出的衣物幾何形狀與 SNUG 輸出的網格高度吻合。
為了維持布料局部的結構穩定性,避免在極端動作下發生破面或扭曲,系統加入了 ARAP(盡可能保持剛性,As-rigid-as-possible)正則化,計算並限制相鄰頂點間距離的變異數。最後,配合遮罩一致性(Mask Consistency)損失函數,透過計算渲染結果與真實衣物遮罩之間的 L2 距離,確保渲染出的衣物輪廓與攝影機捕捉到的真實畫面絲毫不差。
解決遮擋難題的深度感知多通道渲染技術
將身體與衣物分離後,隨之而來的挑戰是處理不同圖層與背景環境之間的複雜遮擋關係。例如當手臂交叉放在胸前,或是寬鬆裙襬覆蓋腿部時,傳統的單一通道 alpha 混合技術在處理多層半透明或相互穿透的邊界時,極易產生破圖或深度錯亂的偽影。為此,Cloth-HUGS 提出了一套深度感知多通道渲染(Depth-Aware Multi-Pass Rendering) 策略。
在第一道渲染通道中,系統會將身體與場景的高斯點合併,利用標準的透明度混合技術生成基礎影像(Base Image),並透過嚴格的深度測試確保人體與環境間的遮擋關係正確。第二道通道則專注於渲染衣物高斯點,透過球諧函數係數生成專屬的衣物圖層。
這個流程的精華在於「深度遮罩(Depth Matte)」的計算。系統會將衣物與場景高斯點共同渲染,賦予二進位色彩配置,藉此得出一個介於 0 到 1 之間的可見度矩陣。在最終的合成階段,系統透過逐元素相乘的算式將衣物層與基礎影像完美疊加。這種機制不僅徹底解決了身體穿模的問題,保留了布料邊緣的半透明混合效果,還能獨立提取純場景視角,在維持 3D 高斯濺射高效能的同時,實現符合物理邏輯的合成效果。
NeuMan 與 ZJU-MoCap 數據集的實測效能
在硬體與訓練效率方面,Cloth-HUGS 展現出極高的實用價值。模型在初始位置學習率設定為 1.6×10^-4 並逐步衰減的條件下,於單張 NVIDIA L40S GPU 上以 512x512 解析度進行 2 萬次迭代訓練。整個序列大約在 40 分鐘即可完全收斂,這代表即使加入了複雜的衣物網格與物理監督機制,其訓練成本依然與未加入衣物層的基線模型保持在同一水平。
測試評估橫跨了多個具挑戰性的開源數據集。其中包含了具備多視角重建場景的 NeuMan 數據集(涵蓋西雅圖、停車場、慢跑等 10-20 秒動態影片),以及在攝影棚內具備精準相機校正的 ZJU-MoCap 資料集(針對受試者 377、386 等多組動作進行單一視角輸入、22 個視角驗證)。
量化數據顯示,得益於物理約束與獨立的衣物圖層設計,Cloth-HUGS 在應對人類複雜且快速的運動時,能維持極高的時間連貫性(Temporally coherent cloth dynamics)。與當前業界領先的基準模型相比,其在 NeuMan 數據集上的感知相似度指標(LPIPS)平均下降了 28%,有效消除了傳統方法常見的模糊與失真。同時,在峰值信噪比(PSNR)、結構相似性(SSIM)以及 Fréchet Inception 距離(FID)等衡量畫質與分佈差異的核心指標上,皆呈現全面且穩定的提升。
透過 3DGS 分離人體與衣物圖層並導入 ARAP 等物理約束,Cloth-HUGS 在 40 分鐘訓練內實現了 60 FPS 的高保真渲染,為數位分身與虛擬試穿技術立下新的效能標竿。