Step-level Denoising-time Diffusion Alignment with Multiple Objectives

Qi Zhang, Dawei Wang, Shaofeng Zou

View Original ↗
AI 導讀 technology AI 重要性 4/5

ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架,透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

  • 針對多目標生成需求,提出步驟層級強化學習框架,解決傳統 RL 策略評估相互依賴的難題。
  • MSDDA 提供去噪期分布的精確閉式解,能在不引進近似誤差下,直接融合多個單一目標基礎模型。
  • 處理反直覺提示詞時,MSDDA 能兼顧文本對齊與美感分數,且延遲大幅低於梯度引導方法。

亞利桑那州立大學(ASU)研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA,透過將強化學習拆解至去噪步驟層級(Step-level),在不引入額外數學近似誤差的情況下,直接融合多個單一目標的預訓練模型。實驗數據顯示,當同時要求圖像符合文本對齊與視覺美感雙重指標時,該方法不僅生成分數勝過傳統 Reward Soup 技術,所需生成時間更僅約為梯度引導方法的二分之一。

突破單一回饋限制:擴散模型微調的多目標困境

Stable Diffusion 為首的擴散模型(Diffusion Models)在文本到圖像生成領域取得重大進展,但這些基於大規模通用資料集預訓練的模型,往往無法直接滿足特定下游任務的需求。為了讓模型產出符合人類偏好的內容,業界廣泛採用基於強化學習(RL)的微調技術,透過最大化特定獎勵函數(Reward function)並加入 KL 散度(Kullback-Leibler divergence)正則化,來確保對齊後的模型不會偏離預訓練基礎太遠。

然而,人類的偏好本質上是多元且複雜的。在實際應用場景中,開發者通常需要同時平衡多個目標,例如圖像的「視覺美感」與「圖文一致性」。現有的多目標強化學習方案雖然有效,但運算成本極為高昂。如果採用線性權重分配(Linear scalarization)策略,系統必須針對每一種可能的偏好權重組合(例如 70% 美感加 30% 圖文一致性)分別訓練一個獨立模型,這導致所需訓練的模型數量將隨著目標數量呈指數級增長。

若試圖採用基於多目標梯度下降(MGDA)的演算法,系統雖然能在每次參數更新時,計算出一個避免衝突、同時提升所有目標的下降方向,但這種作法會帶來可觀的額外運算開銷。更重要的是,這些傳統方法將擴散模型視為一般的機器學習黑盒子,並未深入利用反向擴散過程(Reverse diffusion process)中逐層去噪的獨特數學結構,使得運算效率難以進一步最佳化。

檢視現有去噪期融合技術的數學近似誤差與延遲

為了解決重複訓練耗費巨大資源的問題,學界開始將目光轉向「去噪期擴散對齊」(Denoising-time diffusion alignment)。這類技術的核心概念是:開發者只需準備少量針對單一目標微調過的基礎模型,在推論生成(Inference)階段,透過動態融合這些模型的去噪過程,就能實現特定權重組合的多目標輸出,全程無需重新訓練神經網路。

剖析目前的去噪期技術,主要可分為三條技術路線。第一種是依賴獎勵梯度的方法(Reward gradient-based),透過計算獎勵函數的梯度來引導去噪軌跡,這要求獎勵模型必須是可微分的,且在生成時會大幅增加運算負擔。第二種是基於獎勵數值的方法(Reward value-based),透過蒙地卡羅抽樣等方式反覆估算回饋值來調整去噪過程,同樣逃不開生成速度緩慢的缺陷。

第三種則是完全不需讀取獎勵函數的無回饋融合法(Reward-free fusion),例如業界知名的 Reward Soup(RS) 技術。RS 直接對不同模型的參數進行線性插值,但這種作法缺乏嚴謹的數學理論保證,且要求所有模型必須具備完全相同的網路架構。近期出現的 DB-MPA 與 DERADIFF 等演算法,雖然嘗試在反向分布層面進行融合,但由於傳統 RL 微調的最佳策略難以精確追蹤,這些方法在推導過程中被迫捨棄了部分擴散動態項,導致最終目標函數夾帶了難以量化的數學近似誤差。

借鑒 TRPO 演算法建構步驟層級強化學習架構

為了解決傳統擴散模型強化學習架構中的根本性難題,ASU 團隊選擇從源頭重新定義問題。在標準的擴散模型 RL 微調中,系統必須從更新後的策略(Policy)中抽取樣本來評估邊際分布,這造成了目標策略與優勢估計(Advantage estimates)之間產生循環依賴,使得開發者無法取得精確的最佳策略閉式解(Closed-form solution)。

團隊從經典的信任區域策略最佳化(Trust Region Policy Optimization, TRPO)演算法中汲取靈感,提出了一種新穎的步驟層級強化學習(Step-level RL)架構。這項架構將原本針對整段軌跡的獎勵與 KL 正則化項,徹底拆解到馬可夫決策過程(MDP)的每一個去噪步驟中。透過這種拆解,模型的最佳更新方向只需依賴於「固定參考策略」下的優勢函數,完全打破了原先的循環依賴困境。

建立在步驟層級架構之上,研究人員進一步推導出適用於擴散模型的直接偏好最佳化(Step-level DPO)目標函數。與近期熱門的 Diffusion DPO 不同,新架構在對數 Sigmoid 函數內額外加入了一個逐層的正則化項。當模型處理到較不受偏好的(負面)生成軌跡時,這個懲罰機制會強制對齊後的模型緊貼預訓練權重,確保系統在安全範圍內修正行為,而不需要明確依賴外部的獎勵模型數值。

實現無誤差閉式解的 MSDDA 多目標對齊框架

奠基於上述的步驟層級理論,本研究正式提出多目標步驟層級去噪期擴散對齊(MSDDA)框架。這是一個具備嚴謹數學保證的免重新訓練融合技術。針對一組代表不同目標的獎勵函數,開發者只需預先取得最大化個別目標的基礎反向分布模型,就能在去噪階段透過 MSDDA 快速合成出對應任意偏好權重向量的全新策略。

數學推導證明,MSDDA 能夠針對任何權重組合,提供最佳反向去噪分布的精確閉式解。在每一個去噪步驟中,融合後的新分布依然呈現標準的高斯結構(Gaussian distribution),其平均值與變異數可以由各個基礎單一目標模型的平均值與變異數,透過明確的代數公式直接計算得出。這個過程不需要任何優化求解器介入。

這項突破帶來了兩個關鍵優勢。首先,它證實了去噪期融合取得的解,在數學上完全等價於重新執行一次多目標步驟層級 RL 微調的結果,真正達成了「零近似誤差」。其次,MSDDA 解決了先前技術(如 DB-MPA)的嚴苛限制。DB-MPA 強制要求所有單一目標模型必須共享相同的去噪變異數排程,而 MSDDA 則允許具備完全異質變異數的模型進行融合,大幅拓展了演算法在異質網路環境下的適用範圍。

DrawBench 雙重指標實驗驗證生成品質與效率

為了驗證 MSDDA 的實戰表現,團隊採用 Stable Diffusion v1.5 作為預訓練基底,並運用 DrawBench 提示詞資料集的衍生版本進行廣泛測試。實驗將生成結果交由兩個外部模型進行評分:使用 ImageReward 測量文字與圖像的對齊程度,並採用 VILA 評估圖像的視覺美感。在測試過程中,團隊設定了多組從極端偏好文字到極端偏好美感的權重組合。

數據對比揭露了顯著的效能落差。面對如「粉色的香蕉」或「裝著紅蘋果的紫色背包」這類現實中罕見的反直覺提示詞,未經對齊的預訓練模型經常發生嚴重的語意遺漏。在所有的測試權重下,MSDDA 的雙重指標得分幾乎全面超越了 Reward Soup 等免回饋技術,展現出極高的特徵還原度與畫質。

而在推論延遲的表現上,傳統依賴獎勵模型參與的梯度引導法(RGG)與 CoDe 方法,因為需在生成時不斷呼叫獎勵函數網路,導致生成單張圖像的時間大幅膨脹。MSDDA 僅需同步運行準備好的單目標擴散網路並合併其高斯參數,雖然執行時間略長於單純的 SD 或 RS 參數插值,但換取到了毫無妥協的生成品質與理論精確度,為多目標 AI 生成提供了一條極具性價比的新徑。

多目標模型的發展不應建立在無止盡的運算力消耗上,MSDDA 證明了透過拆解去噪步驟並重構強化學習框架,能在推論期以純數學閉式解達成完美的偏好融合。

Abstract

Reinforcement learning (RL) has emerged as a powerful tool for aligning diffusion models with human preferences, typically by optimizing a single reward function under a KL regularization constraint. In practice, however, human preferences are inherently pluralistic, and aligned models must balance multiple downstream objectives, such as aesthetic quality and text-image consistency. Existing multi-objective approaches either rely on costly multi-objective RL fine-tuning or on fusing separately aligned models at denoising time, but they generally require access to reward values (or their gradients) and/or introduce approximation error in the resulting denoising objectives. In this paper, we revisit the problem of RL fine-tuning for diffusion models and address the intractability of identifying the optimal policy by introducing a step-level RL formulation. Building on this, we further propose Multi-objective Step-level Denoising-time Diffusion Alignment (MSDDA), a retraining-free framework for aligning diffusion models with multiple objectives, obtaining the optimal reverse denoising distribution in closed form, with mean and variance expressed directly in terms of single-objective base models. We prove that this denoising-time objective is exactly equivalent to the step-level RL fine-tuning, introducing no approximation error. Moreover, we provide numerical results, which indicate our method outperforms existing denoising-time approaches.