Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Meng Yu, Lei Sun, Jianhao Zeng, Xiangxiang Chu, Kun Zhan

View Original ↗
AI 導讀 technology AI 重要性 4/5

無痛修正擴散模型的 SNR 偏差,小波域動態差分校正使 FID 降低 47.1%。

  • 模型推理時會產生 SNR 錯位,導致逆向軌跡的預測值普遍被高估。
  • 計算預測樣本差分訊號,免訓練或增加算力即可有效導正去噪軌跡。
  • 導入小波轉換與動態權重獨立校正頻率,讓模型生成品質大幅躍升。

擴散模型在生成影像時,常因推理軌跡偏移導致訊號雜訊比與時間步長不符,進而累積預測誤差。這項由蘭州大學與阿里巴巴團隊提出的演算法,透過小波域動態差分校正(DCW),在免除重新訓練的前提下,將 EDM 模型在 13 步推理任務中的 FID 分數大幅降低 47.1%,成功修復模型軌跡並躍升生成品質。

解析訓練與推理階段的 SNR-t 偏差現象

擴散機率模型(DPM)的運作機制可被拆解為正向加噪與逆向去噪兩個連續過程。在訓練階段,神經網路會接收加上雜訊的樣本與對應的時間步長(timestep),兩者間存在嚴格的綁定關係,這意味著特定時間步長會完全對應一個確定的訊號雜訊比(SNR)。當進入推理階段時,由於數值求解器與網路本身預測的累積誤差,去噪軌跡不可避免地會偏離理想路徑。這種偏離直接導致預測樣本的 SNR 與被分配的時間步長產生錯位,進一步引發誤差的連鎖反應。

過往研究多半關注曝光偏差(exposure bias),也就是訓練與採樣樣本間的落差,但這篇最新研究明確指出 SNR-t 偏差才是更根本的成因。實驗結果顯示,當神經網路處理到 SNR 與時間步長不匹配的樣本時,預測結果會出現明顯且單向的偏移。如果輸入樣本的 SNR 低於理想值,神經網路會傾向產生過大的雜訊預測;反之,若樣本的 SNR 過高,網路則會給出過小的雜訊預測值。這套機制讓 SNR 的微小誤差在迭代過程中被持續放大。

推理階段逆向去噪樣本的 SNR 普遍偏低

為釐清 SNR-t 偏差在系統內的實際表現,研究團隊進一步對 DPM 的逆向過程建立了解析物理模型。透過對比正向與逆向過程中的實驗樣本,數據呈現一個明確的趨勢:在同一個時間步長設定下,逆向去噪樣本的實際 SNR 通常顯著低於對應的正向加噪樣本。由於神經網路在面對低 SNR 樣本時容易產生高估的雜訊預測,去噪樣本整體會維持在較低的 SNR 水平,造成幾乎每個去噪步驟的預測都遭到不正常的高估。

理論上的數學證明也強烈支持了這項實驗發現。研究人員將重建樣本表示為原始數據與雜訊的線性組合,精確推導出逆向去噪樣本 SNR 的數學解析形式。計算證明,在任何特定的時間步長,逆向去噪軌跡中帶有偏差的樣本 SNR,始終低於理論上的理想值。建立起這項厚實的理論基礎後,團隊確認只要能設計一套機制,將偏離的預測樣本逐步推回理想的加噪樣本方向,就能有效壓制 SNR-t 偏差對生成結果的負面衝擊。

像素空間差分訊號與離散小波轉換的結合

針對這項系統性偏差,最直觀的解法是調整逆向樣本的分布以直接對齊正向樣本。然而,現有 DPM 基礎框架若要進行大規模重新訓練或模型微調,都會面臨高昂且難以負荷的計算成本。為此,團隊轉向設計了一種免訓練的差分校正策略,充分利用預測樣本與重建樣本之間的差分訊號來修正網路軌跡。這個差分訊號內部隱含了指向理想加噪樣本的梯度資訊,只要將此資訊無縫整合到每個去噪步驟中,就能在不增加神經網路推論次數的條件下,導引預測樣本往正確方向移動。

為確保校正效果最佳化並降低高頻雜訊帶來的運算干擾,研究團隊將這項修正技術移轉至時間與頻率域,提出小波域動態差分校正(DCW)。模型首先運用離散小波轉換(DWT,將訊號拆解為不同頻率的技術),將預測樣本與重建樣本快速分解為一個低頻子頻帶與三個高頻子頻帶(對應水平、垂直與對角方向)。低頻部分負責承載影像的整體輪廓資訊,而高頻部分則對應複雜的細節紋理。這種創新分解方式讓演算法能針對不同頻率成分進行高解析度獨立校正,隨後再透過逆向小波轉換精確還原回原始的像素空間。

動態權重分配對齊擴散模型的去噪特性

將差分操作導入小波域的另一個核心動機,是為了精準對齊擴散模型在逆向過程中的獨特行為模式。DPM 在去噪初期的行為特徵,是會優先重構影像整體的低頻輪廓,隨後才集中龐大資源修復局部的高頻細節。為了完美配合這種先天特性,DCW 設計了一套與時間步長連動的動態權重分配策略。在去噪的初期階段,系統會強制分配較大的權重係數給低頻校正項,這不僅能大幅加速低頻輪廓的快速成型,也能有效壓制初期高頻雜訊誤差引發的不穩定干擾。

當去噪過程進入到最後階段,系統則會平滑地調低低頻權重,並同步拉高高頻校正項的影響力。此時網路的焦點早已轉向還原高頻細節,放大高頻校正權重能有助於大幅提升紋理的銳利度與清晰度,同時也能防止低頻特徵在過程末期發生過度表達的失真問題。這種巧妙利用逆向過程變異數作為動態調節指標的做法,完美契合了神經網路模型本身的物理意義,使得整體軌跡修正過程變得極度平滑且運算高效。

涵蓋 CIFAR-10 與 EDM 等模型的基準測試

為確認這套演算法的通用性,研究團隊在多個當前主流代表性 DPM 框架(包含 IDDPMADMDDIMPFGM++ 以及 FLUX 等)上進行了廣泛且嚴格的基準測試。在 CIFAR-10 數據集上,DCW 成功幫助 IDDPM 在 20 步與 50 步的採樣任務中,分別將 Fréchet Inception Distance(FID,評估生成影像真實度的指標)分數顯著降低了 42.6%25%,展現出驚人的適應力。

在對應的確定性採樣任務中,針對 EDM 模型的改善幅度同樣出色,DCW 讓其在 13、21 與 35 次神經網路評估次數下的 FID 分數分別大幅下降了 47.1%47.4%36.4%。更值得注意的是,即使是已經針對曝光偏差進行過深度改良的最先進模型(例如 DPM-FR 或是 ADM-ES),在無縫整合 DCW 後依然能帶來額外的生成品質提升。這強烈顯示這套完全不增加運算負擔的隨插即用策略,具備極高的實用價值。

深入探討超參數敏感度與定性視覺評估

轉向定性視覺評估方面,為直觀展示 DCW 對生成畫面品質的實質影響,研究團隊選用 FLUX 擔綱基準模型進行文本到影像的生成實驗,並嚴格固定相同的隨機種子與 10 步採樣步數。實驗結果清晰揭示,原始網路生成的影像經常遭遇過度平滑化或是局部高光過度曝光等嚴重失真問題。在順利導入 DCW 介入校正後,這些失真現象獲得了壓倒性的大幅緩解,不僅畫面高光與陰影的漸層過渡更為自然平順,整體美學層次也得到顯著提升。

探究演算法內部各個元件的影響力,團隊進一步設計了詳盡的消融實驗。如果模型僅在單一空間獨立進行校正,無論是純像素空間校正、純高頻小波校正或是純低頻小波校正,最終的品質成效依然遠遠不及完整的全頻段小波域動態差分校正。這項對比測試充分凸顯了將差分校正技術全面拓展至雙頻子頻帶的絕對必要性,唯有透過空間與頻率雙軌的協同運作,才能榨出模型潛能獲得最大化的品質增益。

擴散模型推理過程的 SNR 錯位是造成生成瑕疵的主因,透過小波域分離頻率特徵並動態施加差分校正,能在零額外運算成本下徹底解放模型潛力。

補充數據視覺化

DCW 方法對擴散模型 FID 分數的改善效果
模型名稱任務設定FID 分數降低比例
IDDPM20-step 任務42.6%
IDDPM50-step 任務25.0%
EDM13 NFE 任務47.1%
EDM21 NFE 任務47.4%
EDM35 NFE 任務36.4%

Abstract

Diffusion Probabilistic Models have demonstrated remarkable performance across a wide range of generative tasks. However, we have observed that these models often suffer from a Signal-to-Noise Ratio-timestep (SNR-t) bias. This bias refers to the misalignment between the SNR of the denoising sample and its corresponding timestep during the inference phase. Specifically, during training, the SNR of a sample is strictly coupled with its timestep. However, this correspondence is disrupted during inference, leading to error accumulation and impairing the generation quality. We provide comprehensive empirical evidence and theoretical analysis to substantiate this phenomenon and propose a simple yet effective differential correction method to mitigate the SNR-t bias. Recognizing that diffusion models typically reconstruct low-frequency components before focusing on high-frequency details during the reverse denoising process, we decompose samples into various frequency components and apply differential correction to each component individually. Extensive experiments show that our approach significantly improves the generation quality of various diffusion models (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++, and FLUX) on datasets of various resolutions with negligible computational overhead. The code is at https://github.com/AMAP-ML/DCW.