Deepfake Detection Generalization with Diffusion Noise

Hongyuan Qi, Wenjin Hou, Hehe Fan, Jun Xiao

View Original ↗
AI 導讀 technology AI 重要性 4/5

浙江大學團隊利用擴散模型預測影像雜訊,開發出 ANL 檢測架構,將未參與訓練的 Deepfake 模型檢測準確率提升逾 12%。

  • 擴散模型生成的 Deepfake 缺乏真實影像固有的微小細節,在單步雜訊預測下會呈現無規律的白雜訊。
  • ANL 架構將預測雜訊轉化為空間注意力圖,引導分類器關注全局特徵,避免對局部像素過度擬合。
  • 在嚴格的跨模型評估中,ANL 面對未見過的生成模型,檢測準確率較現有最佳方法大幅提升 12.33%。

當前主流的 Deepfake 檢測系統正面臨嚴峻挑戰,面對由 Midjourney 或 Stable Diffusion 生成的影像,傳統基於像素特徵的模型往往會失效。來自浙江大學的研究團隊提出了一種名為注意力引導雜訊學習(ANL)的新架構,透過預先訓練的擴散模型提取影像的潛在雜訊,成功將未見過生成模型的跨模型檢測準確率大幅提升了 12.33%,為打擊高逼真度偽造影像提供了全新的特徵觀測維度。

擴散模型引發的 Deepfake 檢測失效危機

早期的 Deepfake 內容大多由生成對抗網路(GAN)或變分自編碼器(VAE)生成。這類技術在合成影像時,經常會在頻域特徵或邊緣融合處留下明顯的瑕疵,使得檢測工具可以輕易抓取這些規律來辨識真偽。然而,隨著生成技術的典範轉移,去噪擴散機率模型(DDPM)及其衍生變體(如 Stable Diffusion)已經成為主流。

擴散模型生成的影像高度符合真實自然影像的數據分佈,幾乎消除了過去常見的肉眼可見瑕疵。這種生成品質的躍升,導致傳統防禦系統陷入「泛化能力(Generalization)」不足的困境:在 A 資料集或 A 模型上訓練出來的檢測器,一旦遇到由未知的 B 模型生成的偽造影像,準確率就會大幅崩跌。

現有的擴散模型 Deepfake 檢測技術(如 DIRE 或 SeDID)大多側重於計算影像在還原過程中的誤差,或是利用影像內部紋理的關聯性。但這些方法依然過度依賴影像的表層像素與語義資訊,當面對架構全新或經過微調的生成模型時,往往難以保持穩定的辨識率。如何在剝離高階語義干擾的同時,找出擴散模型生成的底層共性,成為解決泛化問題的關鍵。

真實影像與生成影像在擴散雜訊域的本質差異

浙江大學團隊的核心洞察在於:與其直接分析影像像素,不如觀察擴散模型是如何「理解」這張影像的雜訊。在擴散模型的框架中,影像的生成是一個逐步去噪的馬可夫鏈(Markov chain)過程。基於這個機制,研究人員發現真實影像與生成影像在「單步雜訊預測」上呈現出截然不同的物理特性。

真實世界拍攝的影像從未經歷過明確的去噪程序,因此保留了極其豐富且細微的紋理細節。當我們將一張真實影像送入預先訓練好的擴散模型,並要求其執行單次雜訊估計時,模型會將這些不規則的真實細節判定為「雜訊」,進而輸出具有高度結構化、包含豐富潛在圖案的雜訊表徵。

相反地,由擴散模型生成的 Deepfake 影像,其誕生過程本身就是無數次反覆去噪的結果。當這類影像再次經歷單步雜訊預測時,模型能抓取到的「結構化雜訊」極少,輸出的結果往往呈現出毫無特徵的均勻白雜訊(White noise)。這個存在於雜訊域(Noise domain)的普適性差異,不受特定生成模型架構的限制,成為辨識高階偽造影像的絕佳突破口。

注意力引導雜訊學習(ANL)的技術拆解

基於上述發現,研究團隊構建了注意力引導雜訊學習(Attention-guided Noise Learning, ANL)框架。該框架並不依賴複雜的資料前處理,而是直接調用開源的 ADM(Ablated Diffusion Model)預訓練權重作為雜訊估計網路。

在運作流程上,系統首先將輸入影像視為特定時間步(Timestep t=1)的雜訊樣本,透過 ADM 提取出其包含的預測雜訊。然而,卷積神經網路(CNN)的特性偏好擷取局部特徵,如果直接把這組雜訊丟給分類器,模型很容易對特定資料集的局部瑕疵產生過度擬合(Overfitting),進而削弱泛化能力。

為了引導模型從全局視角判斷,ANL 引入了空間注意力機制。系統會將預測出的雜訊取絕對值並在通道維度上進行聚合,生成一張歸一化至 [0, 1] 區間的「空間注意力圖(Spatial Attention Map)」。這張圖精準標示了雜訊強度的空間分佈,隨後與 ResNet-50 分類器的深層特徵圖進行逐元素相乘。透過這種權重重新分配,分類器被迫將注意力集中在全域性的雜訊結構差異上,而非無效的背景區域。

跨模型評估策略與超過 12% 的檢測準確率提升

為了真實反映檢測器在開放世界中的防禦力,研究團隊除了常規的「跨資料集(Cross-dataset)」測試外,特別設計了嚴苛的「跨模型(Cross-model)」評估協議:使用某一組擴散模型生成的影像進行訓練,然後在完全未見過的另一組先進模型(如 SDXL、Midjourney)生成的影像上進行測試。

在 DiffFace 與 DiFF 兩大主流基準資料集上,ANL 展現了壓倒性的優勢。在 DiffFace 的跨模型測試中,ANL 較現有的 DIRE 方法在準確率(ACC)與平均精度(AP)上分別提升了至少 12.33%6.87%;在 DiFF 資料集上亦有 4.51%9.81% 的顯著增長。

消融實驗(Ablation Study)進一步證實了架構設計的必要性。測試結果顯示,將時間步設定為 t=1(即去噪過程的最後階段)能獲得最佳泛化效果,因為此階段最能捕捉極細微的紋理差異。此外,若移除注意力圖機制,模型在跨資料集測試(從 DiffFace 轉測 DiFF)中的 ACC 與 AP 表現會瞬間暴跌 13.39%13.46%。這證明了由雜訊推導出的注意力引導信號,是消除資料集偏差、穩定提取通用偽造特徵的核心驅動力。

將 Deepfake 檢測的主戰場從像素特徵轉移至擴散雜訊域,不僅避開了高階語義的干擾,更為防禦未知生成模型的演進指明了技術方向。

Abstract

Deepfake detectors face growing challenges in generalization as new image synthesis techniques emerge. In particular, deepfakes generated by diffusion models are highly photorealistic and often evade detectors trained on GAN-based forgeries. This paper addresses the generalization problem in deepfake detection by leveraging diffusion noise characteristics. We propose an Attention-guided Noise Learning (ANL) framework that integrates a pre-trained diffusion model into the deepfake detection pipeline to guide the learning of more robust features. Specifically, our method uses the diffusion model's denoising process to expose subtle artifacts: the detector is trained to predict the noise contained in an input image at a given diffusion step, forcing it to capture discrepancies between real and synthetic images, while an attention-guided mechanism derived from the predicted noise is introduced to encourage the model to focus on globally distributed discrepancies rather than local patterns. By harnessing the frozen diffusion model's learned distribution of natural images, the ANL method acts as a form of regularization, improving the detector's generalization to unseen forgery types. Extensive experiments demonstrate that ANL significantly outperforms existing methods on multiple benchmarks, achieving state-of-the-art accuracy in detecting diffusion-generated deepfakes. Notably, the proposed framework boosts generalization performance (e.g., improving ACC/AP by a substantial margin on unseen models) without introducing additional overhead during inference. Our results highlight that diffusion noise provides a powerful signal for generalizable deepfake detection.