M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection
M3D-Net 透過單張影像重建 3D 反照率與深度特徵,結合多模態融合技術,在 FF++ 資料集達到 0.9746 AUC 分數。
- M3D-Net 採用雙流架構,同步處理 RGB 影像與 3D 臉部重建特徵以辨識造假痕跡。
- 3D 預融合模組結合 SKAttention 機制,有效整合反照率與深度等多源空間資訊。
- 在交叉解析度測試中獲得 0.8195 AUC,證明該模型對低畫質偽造影像具備極佳強健性。
傳統的 2D 深度偽造(Deepfake)檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點,華南農業大學研究團隊提出 M3D-Net 雙流網路架構,透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術,在主流的 FF++(c23) 資料集上達到了 0.9746 的 AUC 分數,並在跨解析度測試中繳出 0.8195 的成績,大幅刷新現有檢測方法的準確度與強健性。
突破傳統 2D 限制的 M3D-Net 雙流網路架構
影像生成技術的快速發展,讓臉部偽造技術達到前所未有的逼真程度。過去的檢測方法多半仰賴擷取 2D 視覺特徵來尋找異常模式,但這些模型過度依賴特定訓練資料集,只要遇到跨網域或解析度不佳的影像,辨識能力就會大幅下降。為此,研究人員開始轉向特徵重建技術,試圖從臉部影像中還原空間或幾何資訊,藉此找出潛在的物理不一致性。
現有的重建方法仍面臨兩大挑戰。首先,重建的精準度高度依賴輸入影像的品質,在低解析度或有遮擋的情況下往往難以發揮;其次,多數方法僅專注於單一特徵(如單純的形狀或紋理),缺乏多模態特徵的有效整合。M3D-Net 的提出正是為了解決這些問題。這是一個端到端(End-to-end)的雙流網路架構,將輸入的臉部影像同時送入「3D 特徵重建分支」與「RGB 分支」進行獨立的特徵擷取,兩者皆採用 EfficientNet-B4 作為骨幹網路,確保特徵表示的有效性。
非監督式 3D 重建模組解析臉部深度與反照率
在 3D 特徵重建分支中,團隊採用了以非監督式學習為基礎的 Unsup3D 框架作為核心。該模組包含兩個專屬的編碼器-解碼器(Encoder-Decoder)結構:反照率(Albedo,指表面固有色彩)模組與深度(Depth)模組。深度特徵代表每個像素到觀察者的距離,而反照率特徵則保留了臉部表面的物理光學資訊。
這兩個模組會先進行獨立的預訓練,隨後在主網路訓練時凍結參數。為了提升重建品質,預訓練過程使用了一套包含像素級重建損失與感知損失(Perceptual loss)的目標函數。像素級損失主要縮小重建影像與原始輸入的差異;感知損失則透過預先訓練的 VGG 網路提取高階語意特徵,強化幾何細節並減少影像模糊。此外,訓練過程還利用了人類臉部的自然對稱性,將水平翻轉的影像一併納入損失計算,進一步提升了模型對 3D 空間特徵的捕捉能力。
結合 SKAttention 機制的 3D 特徵預融合
取得反照率與深度特徵後,M3D-Net 導入了 3D 特徵預融合模組(PFM) 來進行初步整合。該模組的設計目的是為了自適應地調整這兩種特徵的權重,使其能夠應對臉部外觀與環境條件的複雜變化。反照率影像特徵會通過兩條平行的深度可分離卷積(Depthwise Separable Convolution)路徑來重新校準響應強度;而深度特徵由於在通道維度上的差異較不明顯,僅需通過單一卷積路徑即可。
PFM 模組的核心亮點在於引入了空間卷積核注意力(SKAttention)機制。這種機制採用多分支架構,結合 1×1、3×3、5×5 與 7×7 等不同尺寸的卷積核,平行捕捉局部細節與廣泛的上下文資訊。透過自適應聚焦於高資訊含量的特徵區域,網路能更精確地解讀特徵圖中的結構模式。最後,特徵對齊與融合層會將多光譜特徵與深度特徵對齊,提供後續分類任務更具鑑別力的表示法。
RGB 與 3D 特徵交叉注意力的多模態融合機制
為了徹底發揮異質模態間的互補優勢,網路的最後階段配置了 多模態特徵融合模組(MFM)。RGB 影像能提供豐富的色彩與紋理細節,而 3D 特徵則掌握了形狀與深度的關鍵線索。該模組首先利用線性轉換層將全局與局部特徵投影至相容的維度,為接下來的多頭注意力(Multi-head attention)機制做好準備。
模組內建置了雙向的交叉注意力(Cross-attention)機制:一條由 RGB 特徵引導 3D 特徵,另一條則由 3D 幾何特徵反向微調 RGB 特徵。這種設計促成了更全面且互補的特徵互動。經過交叉注意力處理後,多模態特徵會在維度上進行拼接,並送入自注意力(Self-attention)層進行最後的語意深化。此過程不僅保留了各個模態的獨特性,也強化了兩者間的關聯性,大幅提升模型在複雜場景下的防偽辨識能力。
在 FF++ 資料集繳出 0.9746 AUC 的實測表現
為了驗證模型的實際效能,團隊使用了 DeepfakeBench 統一評估框架,並在多個主流資料集上進行廣泛測試。在模型訓練階段,所有影像皆標準化為 256×256 解析度,批次大小(Batch Size)設定為 64,並搭配隨機翻轉、模糊與亮度調整等資料擴增技術。評估指標則採用深度偽造領域公認的 AUC(曲線下面積)來衡量綜合準確度。
在資料集內評估中,M3D-Net 在 FaceForensics++ (FF++) 的 c23 輕度壓縮版本上取得了 0.9746 的 AUC 分數,全面超越 Xception、MesoIncep 與 SRM 等現有主流方法。在針對四種不同偽造技術的子集測試中,除了 Face2Face 因其技術特性較容易保留原始表情而較具挑戰性,依然取得 0.98 以上的成績。更值得一提的是,在嚴苛的跨解析度測試中,M3D-Net 繳出了 0.8195 的 AUC 表現,證明其特徵融合策略能有效克服影像品質下降帶來的干擾。
M3D-Net 證明了從 2D 影像還原 3D 幾何與反照率特徵並進行多模態融合,是突破高維度臉部造假防禦技術的關鍵路徑。
補充數據視覺化
| 測試情境/資料集 | AUC 分數 |
|---|---|
| FF++ (c23) 整體 | 0.9746 |
| Face2Face 子集 | >0.98 |
| 跨解析度測試 | 0.8195 |