M3D-Net: Multi-Modal 3D Facial Feature Reconstruction Network for Deepfake Detection

Haotian Wu, Yue Cheng, Shan Bian

View Original ↗
AI 導讀 technology AI 重要性 4/5

M3D-Net 透過單張影像重建 3D 反照率與深度特徵,結合多模態融合技術,在 FF++ 資料集達到 0.9746 AUC 分數。

  • M3D-Net 採用雙流架構,同步處理 RGB 影像與 3D 臉部重建特徵以辨識造假痕跡。
  • 3D 預融合模組結合 SKAttention 機制,有效整合反照率與深度等多源空間資訊。
  • 在交叉解析度測試中獲得 0.8195 AUC,證明該模型對低畫質偽造影像具備極佳強健性。

傳統的 2D 深度偽造(Deepfake)檢測技術在面對高畫質或極度模糊的造假影像時經常失效。為了解決這項痛點,華南農業大學研究團隊提出 M3D-Net 雙流網路架構,透過單一視角 RGB 影像重建臉部的反照率與深度特徵。這項結合 3D 空間特徵與 RGB 影像的多模態融合技術,在主流的 FF++(c23) 資料集上達到了 0.9746 的 AUC 分數,並在跨解析度測試中繳出 0.8195 的成績,大幅刷新現有檢測方法的準確度與強健性。

突破傳統 2D 限制的 M3D-Net 雙流網路架構

影像生成技術的快速發展,讓臉部偽造技術達到前所未有的逼真程度。過去的檢測方法多半仰賴擷取 2D 視覺特徵來尋找異常模式,但這些模型過度依賴特定訓練資料集,只要遇到跨網域或解析度不佳的影像,辨識能力就會大幅下降。為此,研究人員開始轉向特徵重建技術,試圖從臉部影像中還原空間或幾何資訊,藉此找出潛在的物理不一致性。

現有的重建方法仍面臨兩大挑戰。首先,重建的精準度高度依賴輸入影像的品質,在低解析度或有遮擋的情況下往往難以發揮;其次,多數方法僅專注於單一特徵(如單純的形狀或紋理),缺乏多模態特徵的有效整合。M3D-Net 的提出正是為了解決這些問題。這是一個端到端(End-to-end)的雙流網路架構,將輸入的臉部影像同時送入「3D 特徵重建分支」與「RGB 分支」進行獨立的特徵擷取,兩者皆採用 EfficientNet-B4 作為骨幹網路,確保特徵表示的有效性。

非監督式 3D 重建模組解析臉部深度與反照率

在 3D 特徵重建分支中,團隊採用了以非監督式學習為基礎的 Unsup3D 框架作為核心。該模組包含兩個專屬的編碼器-解碼器(Encoder-Decoder)結構:反照率(Albedo,指表面固有色彩)模組與深度(Depth)模組。深度特徵代表每個像素到觀察者的距離,而反照率特徵則保留了臉部表面的物理光學資訊。

這兩個模組會先進行獨立的預訓練,隨後在主網路訓練時凍結參數。為了提升重建品質,預訓練過程使用了一套包含像素級重建損失與感知損失(Perceptual loss)的目標函數。像素級損失主要縮小重建影像與原始輸入的差異;感知損失則透過預先訓練的 VGG 網路提取高階語意特徵,強化幾何細節並減少影像模糊。此外,訓練過程還利用了人類臉部的自然對稱性,將水平翻轉的影像一併納入損失計算,進一步提升了模型對 3D 空間特徵的捕捉能力。

結合 SKAttention 機制的 3D 特徵預融合

取得反照率與深度特徵後,M3D-Net 導入了 3D 特徵預融合模組(PFM) 來進行初步整合。該模組的設計目的是為了自適應地調整這兩種特徵的權重,使其能夠應對臉部外觀與環境條件的複雜變化。反照率影像特徵會通過兩條平行的深度可分離卷積(Depthwise Separable Convolution)路徑來重新校準響應強度;而深度特徵由於在通道維度上的差異較不明顯,僅需通過單一卷積路徑即可。

PFM 模組的核心亮點在於引入了空間卷積核注意力(SKAttention)機制。這種機制採用多分支架構,結合 1×1、3×3、5×5 與 7×7 等不同尺寸的卷積核,平行捕捉局部細節與廣泛的上下文資訊。透過自適應聚焦於高資訊含量的特徵區域,網路能更精確地解讀特徵圖中的結構模式。最後,特徵對齊與融合層會將多光譜特徵與深度特徵對齊,提供後續分類任務更具鑑別力的表示法。

RGB 與 3D 特徵交叉注意力的多模態融合機制

為了徹底發揮異質模態間的互補優勢,網路的最後階段配置了 多模態特徵融合模組(MFM)。RGB 影像能提供豐富的色彩與紋理細節,而 3D 特徵則掌握了形狀與深度的關鍵線索。該模組首先利用線性轉換層將全局與局部特徵投影至相容的維度,為接下來的多頭注意力(Multi-head attention)機制做好準備。

模組內建置了雙向的交叉注意力(Cross-attention)機制:一條由 RGB 特徵引導 3D 特徵,另一條則由 3D 幾何特徵反向微調 RGB 特徵。這種設計促成了更全面且互補的特徵互動。經過交叉注意力處理後,多模態特徵會在維度上進行拼接,並送入自注意力(Self-attention)層進行最後的語意深化。此過程不僅保留了各個模態的獨特性,也強化了兩者間的關聯性,大幅提升模型在複雜場景下的防偽辨識能力。

在 FF++ 資料集繳出 0.9746 AUC 的實測表現

為了驗證模型的實際效能,團隊使用了 DeepfakeBench 統一評估框架,並在多個主流資料集上進行廣泛測試。在模型訓練階段,所有影像皆標準化為 256×256 解析度,批次大小(Batch Size)設定為 64,並搭配隨機翻轉、模糊與亮度調整等資料擴增技術。評估指標則採用深度偽造領域公認的 AUC(曲線下面積)來衡量綜合準確度。

在資料集內評估中,M3D-Net 在 FaceForensics++ (FF++) 的 c23 輕度壓縮版本上取得了 0.9746 的 AUC 分數,全面超越 Xception、MesoIncep 與 SRM 等現有主流方法。在針對四種不同偽造技術的子集測試中,除了 Face2Face 因其技術特性較容易保留原始表情而較具挑戰性,依然取得 0.98 以上的成績。更值得一提的是,在嚴苛的跨解析度測試中,M3D-Net 繳出了 0.8195 的 AUC 表現,證明其特徵融合策略能有效克服影像品質下降帶來的干擾。

M3D-Net 證明了從 2D 影像還原 3D 幾何與反照率特徵並進行多模態融合,是突破高維度臉部造假防禦技術的關鍵路徑。

補充數據視覺化

M3D-Net 在不同測試情境下的 AUC 分數表現
測試情境/資料集AUC 分數
FF++ (c23) 整體0.9746
Face2Face 子集>0.98
跨解析度測試0.8195

Abstract

With the rapid advancement of deep learning in image generation, facial forgery techniques have achieved unprecedented realism, posing serious threats to cybersecurity and information authenticity. Most existing deepfake detection approaches rely on the reconstruction of isolated facial attributes without fully exploiting the complementary nature of multi-modal feature representations. To address these challenges, this paper proposes a novel Multi-Modal 3D Facial Feature Reconstruction Network (M3D-Net) for deepfake detection. Our method leverages an end-to-end dual-stream architecture that reconstructs fine-grained facial geometry and reflectance properties from single-view RGB images via a self-supervised 3D facial reconstruction module. The network further enhances detection performance through a 3D Feature Pre-fusion Module (PFM), which adaptively adjusts multi-scale features, and a Multi-modal Fusion Module (MFM) that effectively integrates RGB and 3D-reconstructed features using attention mechanisms. Extensive experiments on multiple public datasets demonstrate that our approach achieves state-of-the-art performance in terms of detection accuracy and robustness, significantly outperforming existing methods while exhibiting strong generalization across diverse scenarios.