ASU 團隊提出無須重新訓練的 MSDDA 擴散模型對齊框架，透過步驟層級最佳化徹底消除多目標融合時的近似誤差。

AI 導讀 technology AI 重要性 4/5

針對多目標生成需求，提出步驟層級強化學習框架，解決傳統 RL 策略評估相互依賴的難題。
MSDDA 提供去噪期分布的精確閉式解，能在不引進近似誤差下，直接融合多個單一目標基礎模型。
處理反直覺提示詞時，MSDDA 能兼顧文本對齊與美感分數，且延遲大幅低於梯度引導方法。

亞利桑那州立大學（ASU）研究團隊提出一項無需重新訓練的擴散模型對齊技術 MSDDA，透過將強化學習拆解至去噪步驟層級（Step-level），在不引入額外數學近似誤差的情況下，直接融合多個單一目標的預訓練模型。實驗數據顯示，當同時要求圖像符合文本對齊與視覺美感雙重指標時，該方法不僅生成分數勝過傳統 Reward Soup 技術，所需生成時間更僅約為梯度引導方法的二分之一。

突破單一回饋限制：擴散模型微調的多目標困境

以 Stable Diffusion 為首的擴散模型（Diffusion Models）在文本到圖像生成領域取得重大進展，但這些基於大規模通用資料集預訓練的模型，往往無法直接滿足特定下游任務的需求。為了讓模型產出符合人類偏好的內容，業界廣泛採用基於強化學習（RL）的微調技術，透過最大化特定獎勵函數（Reward function）並加入 KL 散度（Kullback-Leibler divergence）正則化，來確保對齊後的模型不會偏離預訓練基礎太遠。

然而，人類的偏好本質上是多元且複雜的。在實際應用場景中，開發者通常需要同時平衡多個目標，例如圖像的「視覺美感」與「圖文一致性」。現有的多目標強化學習方案雖然有效，但運算成本極為高昂。如果採用線性權重分配（Linear scalarization）策略，系統必須針對每一種可能的偏好權重組合（例如 70% 美感加 30% 圖文一致性）分別訓練一個獨立模型，這導致所需訓練的模型數量將隨著目標數量呈指數級增長。

若試圖採用基於多目標梯度下降（MGDA）的演算法，系統雖然能在每次參數更新時，計算出一個避免衝突、同時提升所有目標的下降方向，但這種作法會帶來可觀的額外運算開銷。更重要的是，這些傳統方法將擴散模型視為一般的機器學習黑盒子，並未深入利用反向擴散過程（Reverse diffusion process）中逐層去噪的獨特數學結構，使得運算效率難以進一步最佳化。

檢視現有去噪期融合技術的數學近似誤差與延遲

為了解決重複訓練耗費巨大資源的問題，學界開始將目光轉向「去噪期擴散對齊」（Denoising-time diffusion alignment）。這類技術的核心概念是：開發者只需準備少量針對單一目標微調過的基礎模型，在推論生成（Inference）階段，透過動態融合這些模型的去噪過程，就能實現特定權重組合的多目標輸出，全程無需重新訓練神經網路。

剖析目前的去噪期技術，主要可分為三條技術路線。第一種是依賴獎勵梯度的方法（Reward gradient-based），透過計算獎勵函數的梯度來引導去噪軌跡，這要求獎勵模型必須是可微分的，且在生成時會大幅增加運算負擔。第二種是基於獎勵數值的方法（Reward value-based），透過蒙地卡羅抽樣等方式反覆估算回饋值來調整去噪過程，同樣逃不開生成速度緩慢的缺陷。

第三種則是完全不需讀取獎勵函數的無回饋融合法（Reward-free fusion），例如業界知名的 Reward Soup（RS） 技術。RS 直接對不同模型的參數進行線性插值，但這種作法缺乏嚴謹的數學理論保證，且要求所有模型必須具備完全相同的網路架構。近期出現的 DB-MPA 與 DERADIFF 等演算法，雖然嘗試在反向分布層面進行融合，但由於傳統 RL 微調的最佳策略難以精確追蹤，這些方法在推導過程中被迫捨棄了部分擴散動態項，導致最終目標函數夾帶了難以量化的數學近似誤差。

借鑒 TRPO 演算法建構步驟層級強化學習架構

為了解決傳統擴散模型強化學習架構中的根本性難題，ASU 團隊選擇從源頭重新定義問題。在標準的擴散模型 RL 微調中，系統必須從更新後的策略（Policy）中抽取樣本來評估邊際分布，這造成了目標策略與優勢估計（Advantage estimates）之間產生循環依賴，使得開發者無法取得精確的最佳策略閉式解（Closed-form solution）。

團隊從經典的信任區域策略最佳化（Trust Region Policy Optimization, TRPO）演算法中汲取靈感，提出了一種新穎的步驟層級強化學習（Step-level RL）架構。這項架構將原本針對整段軌跡的獎勵與 KL 正則化項，徹底拆解到馬可夫決策過程（MDP）的每一個去噪步驟中。透過這種拆解，模型的最佳更新方向只需依賴於「固定參考策略」下的優勢函數，完全打破了原先的循環依賴困境。

建立在步驟層級架構之上，研究人員進一步推導出適用於擴散模型的直接偏好最佳化（Step-level DPO）目標函數。與近期熱門的 Diffusion DPO 不同，新架構在對數 Sigmoid 函數內額外加入了一個逐層的正則化項。當模型處理到較不受偏好的（負面）生成軌跡時，這個懲罰機制會強制對齊後的模型緊貼預訓練權重，確保系統在安全範圍內修正行為，而不需要明確依賴外部的獎勵模型數值。

實現無誤差閉式解的 MSDDA 多目標對齊框架

奠基於上述的步驟層級理論，本研究正式提出多目標步驟層級去噪期擴散對齊（MSDDA）框架。這是一個具備嚴謹數學保證的免重新訓練融合技術。針對一組代表不同目標的獎勵函數，開發者只需預先取得最大化個別目標的基礎反向分布模型，就能在去噪階段透過 MSDDA 快速合成出對應任意偏好權重向量的全新策略。

數學推導證明，MSDDA 能夠針對任何權重組合，提供最佳反向去噪分布的精確閉式解。在每一個去噪步驟中，融合後的新分布依然呈現標準的高斯結構（Gaussian distribution），其平均值與變異數可以由各個基礎單一目標模型的平均值與變異數，透過明確的代數公式直接計算得出。這個過程不需要任何優化求解器介入。

這項突破帶來了兩個關鍵優勢。首先，它證實了去噪期融合取得的解，在數學上完全等價於重新執行一次多目標步驟層級 RL 微調的結果，真正達成了「零近似誤差」。其次，MSDDA 解決了先前技術（如 DB-MPA）的嚴苛限制。DB-MPA 強制要求所有單一目標模型必須共享相同的去噪變異數排程，而 MSDDA 則允許具備完全異質變異數的模型進行融合，大幅拓展了演算法在異質網路環境下的適用範圍。

DrawBench 雙重指標實驗驗證生成品質與效率

為了驗證 MSDDA 的實戰表現，團隊採用 Stable Diffusion v1.5 作為預訓練基底，並運用 DrawBench 提示詞資料集的衍生版本進行廣泛測試。實驗將生成結果交由兩個外部模型進行評分：使用 ImageReward 測量文字與圖像的對齊程度，並採用 VILA 評估圖像的視覺美感。在測試過程中，團隊設定了多組從極端偏好文字到極端偏好美感的權重組合。

數據對比揭露了顯著的效能落差。面對如「粉色的香蕉」或「裝著紅蘋果的紫色背包」這類現實中罕見的反直覺提示詞，未經對齊的預訓練模型經常發生嚴重的語意遺漏。在所有的測試權重下，MSDDA 的雙重指標得分幾乎全面超越了 Reward Soup 等免回饋技術，展現出極高的特徵還原度與畫質。

而在推論延遲的表現上，傳統依賴獎勵模型參與的梯度引導法（RGG）與 CoDe 方法，因為需在生成時不斷呼叫獎勵函數網路，導致生成單張圖像的時間大幅膨脹。MSDDA 僅需同步運行準備好的單目標擴散網路並合併其高斯參數，雖然執行時間略長於單純的 SD 或 RS 參數插值，但換取到了毫無妥協的生成品質與理論精確度，為多目標 AI 生成提供了一條極具性價比的新徑。

多目標模型的發展不應建立在無止盡的運算力消耗上，MSDDA 證明了透過拆解去噪步驟並重構強化學習框架，能在推論期以純數學閉式解達成完美的偏好融合。

Abstract

Reinforcement learning (RL) has emerged as a powerful tool for aligning diffusion models with human preferences, typically by optimizing a single reward function under a KL regularization constraint. In practice, however, human preferences are inherently pluralistic, and aligned models must balance multiple downstream objectives, such as aesthetic quality and text-image consistency. Existing multi-objective approaches either rely on costly multi-objective RL fine-tuning or on fusing separately aligned models at denoising time, but they generally require access to reward values (or their gradients) and/or introduce approximation error in the resulting denoising objectives. In this paper, we revisit the problem of RL fine-tuning for diffusion models and address the intractability of identifying the optimal policy by introducing a step-level RL formulation. Building on this, we further propose Multi-objective Step-level Denoising-time Diffusion Alignment (MSDDA), a retraining-free framework for aligning diffusion models with multiple objectives, obtaining the optimal reverse denoising distribution in closed form, with mean and variance expressed directly in terms of single-objective base models. We prove that this denoising-time objective is exactly equivalent to the step-level RL fine-tuning, introducing no approximation error. Moreover, we provide numerical results, which indicate our method outperforms existing denoising-time approaches.

Step-level Denoising-time Diffusion Alignment with Multiple Objectives

突破單一回饋限制：擴散模型微調的多目標困境

檢視現有去噪期融合技術的數學近似誤差與延遲

借鑒 TRPO 演算法建構步驟層級強化學習架構

實現無誤差閉式解的 MSDDA 多目標對齊框架

DrawBench 雙重指標實驗驗證生成品質與效率

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。

研究團隊提出結合信賴域與直接搜尋的動態切換演算法，突破傳統模型停滯瓶頸，大幅提升多目標機器學習最佳化效率。