Deepfake Detection Generalization with Diffusion Noise
浙江大學團隊利用擴散模型預測影像雜訊,開發出 ANL 檢測架構,將未參與訓練的 Deepfake 模型檢測準確率提升逾 12%。
- 擴散模型生成的 Deepfake 缺乏真實影像固有的微小細節,在單步雜訊預測下會呈現無規律的白雜訊。
- ANL 架構將預測雜訊轉化為空間注意力圖,引導分類器關注全局特徵,避免對局部像素過度擬合。
- 在嚴格的跨模型評估中,ANL 面對未見過的生成模型,檢測準確率較現有最佳方法大幅提升 12.33%。
當前主流的 Deepfake 檢測系統正面臨嚴峻挑戰,面對由 Midjourney 或 Stable Diffusion 生成的影像,傳統基於像素特徵的模型往往會失效。來自浙江大學的研究團隊提出了一種名為注意力引導雜訊學習(ANL)的新架構,透過預先訓練的擴散模型提取影像的潛在雜訊,成功將未見過生成模型的跨模型檢測準確率大幅提升了 12.33%,為打擊高逼真度偽造影像提供了全新的特徵觀測維度。
擴散模型引發的 Deepfake 檢測失效危機
早期的 Deepfake 內容大多由生成對抗網路(GAN)或變分自編碼器(VAE)生成。這類技術在合成影像時,經常會在頻域特徵或邊緣融合處留下明顯的瑕疵,使得檢測工具可以輕易抓取這些規律來辨識真偽。然而,隨著生成技術的典範轉移,去噪擴散機率模型(DDPM)及其衍生變體(如 Stable Diffusion)已經成為主流。
擴散模型生成的影像高度符合真實自然影像的數據分佈,幾乎消除了過去常見的肉眼可見瑕疵。這種生成品質的躍升,導致傳統防禦系統陷入「泛化能力(Generalization)」不足的困境:在 A 資料集或 A 模型上訓練出來的檢測器,一旦遇到由未知的 B 模型生成的偽造影像,準確率就會大幅崩跌。
現有的擴散模型 Deepfake 檢測技術(如 DIRE 或 SeDID)大多側重於計算影像在還原過程中的誤差,或是利用影像內部紋理的關聯性。但這些方法依然過度依賴影像的表層像素與語義資訊,當面對架構全新或經過微調的生成模型時,往往難以保持穩定的辨識率。如何在剝離高階語義干擾的同時,找出擴散模型生成的底層共性,成為解決泛化問題的關鍵。
真實影像與生成影像在擴散雜訊域的本質差異
浙江大學團隊的核心洞察在於:與其直接分析影像像素,不如觀察擴散模型是如何「理解」這張影像的雜訊。在擴散模型的框架中,影像的生成是一個逐步去噪的馬可夫鏈(Markov chain)過程。基於這個機制,研究人員發現真實影像與生成影像在「單步雜訊預測」上呈現出截然不同的物理特性。
真實世界拍攝的影像從未經歷過明確的去噪程序,因此保留了極其豐富且細微的紋理細節。當我們將一張真實影像送入預先訓練好的擴散模型,並要求其執行單次雜訊估計時,模型會將這些不規則的真實細節判定為「雜訊」,進而輸出具有高度結構化、包含豐富潛在圖案的雜訊表徵。
相反地,由擴散模型生成的 Deepfake 影像,其誕生過程本身就是無數次反覆去噪的結果。當這類影像再次經歷單步雜訊預測時,模型能抓取到的「結構化雜訊」極少,輸出的結果往往呈現出毫無特徵的均勻白雜訊(White noise)。這個存在於雜訊域(Noise domain)的普適性差異,不受特定生成模型架構的限制,成為辨識高階偽造影像的絕佳突破口。
注意力引導雜訊學習(ANL)的技術拆解
基於上述發現,研究團隊構建了注意力引導雜訊學習(Attention-guided Noise Learning, ANL)框架。該框架並不依賴複雜的資料前處理,而是直接調用開源的 ADM(Ablated Diffusion Model)預訓練權重作為雜訊估計網路。
在運作流程上,系統首先將輸入影像視為特定時間步(Timestep t=1)的雜訊樣本,透過 ADM 提取出其包含的預測雜訊。然而,卷積神經網路(CNN)的特性偏好擷取局部特徵,如果直接把這組雜訊丟給分類器,模型很容易對特定資料集的局部瑕疵產生過度擬合(Overfitting),進而削弱泛化能力。
為了引導模型從全局視角判斷,ANL 引入了空間注意力機制。系統會將預測出的雜訊取絕對值並在通道維度上進行聚合,生成一張歸一化至 [0, 1] 區間的「空間注意力圖(Spatial Attention Map)」。這張圖精準標示了雜訊強度的空間分佈,隨後與 ResNet-50 分類器的深層特徵圖進行逐元素相乘。透過這種權重重新分配,分類器被迫將注意力集中在全域性的雜訊結構差異上,而非無效的背景區域。
跨模型評估策略與超過 12% 的檢測準確率提升
為了真實反映檢測器在開放世界中的防禦力,研究團隊除了常規的「跨資料集(Cross-dataset)」測試外,特別設計了嚴苛的「跨模型(Cross-model)」評估協議:使用某一組擴散模型生成的影像進行訓練,然後在完全未見過的另一組先進模型(如 SDXL、Midjourney)生成的影像上進行測試。
在 DiffFace 與 DiFF 兩大主流基準資料集上,ANL 展現了壓倒性的優勢。在 DiffFace 的跨模型測試中,ANL 較現有的 DIRE 方法在準確率(ACC)與平均精度(AP)上分別提升了至少 12.33% 與 6.87%;在 DiFF 資料集上亦有 4.51% 與 9.81% 的顯著增長。
消融實驗(Ablation Study)進一步證實了架構設計的必要性。測試結果顯示,將時間步設定為 t=1(即去噪過程的最後階段)能獲得最佳泛化效果,因為此階段最能捕捉極細微的紋理差異。此外,若移除注意力圖機制,模型在跨資料集測試(從 DiffFace 轉測 DiFF)中的 ACC 與 AP 表現會瞬間暴跌 13.39% 與 13.46%。這證明了由雜訊推導出的注意力引導信號,是消除資料集偏差、穩定提取通用偽造特徵的核心驅動力。
將 Deepfake 檢測的主戰場從像素特徵轉移至擴散雜訊域,不僅避開了高階語義的干擾,更為防禦未知生成模型的演進指明了技術方向。