詞彙微調致256個視覺token注意力崩潰，CPO++藉反事實推理修復多模態認知偏移。

AI 導讀 technology AI 重要性 4/5

自迴歸生成觸發內源性推理偏移，導致視覺感知與邏輯脫鉤。
CPO++ 導入知識圖譜與反事實推理，自主合成高難度對抗樣本。
雙向優化協議確保思考與影像嚴格錨定，大幅提升跨領域泛化力。

當我們在醫學影像推論過程中將「lung opacity」輕微修改為同義詞「opacity」時，多模態大型語言模型對 256 個視覺 token 的注意力分佈竟會瞬間崩潰。這種在自迴歸生成過程中自發產生的「內源性推理偏移（endogenous reasoning drift）」現象，揭示了當前 AI 系統在安全關鍵領域的嚴重漏洞。為解決此內部失調問題，澳洲雪梨科技大學團隊提出了 CPO++ 框架，透過雙向反事實推理機制來穩定模型的思考與感知軌跡。

Qwen2.5-VL 揭露多模態模型內源性推理偏移

引入 RFT（強化微調）已成為使 MLLM（多模態大型語言模型）對齊複雜人類價值觀與特定領域需求的重要典範。然而，當前多數研究主要集中在減輕由外部數據因素引起的分布偏移，模型內部固有的不穩定性卻鮮少被探討。研究團隊發現，MLLM 在思考與感知傾向上極易受到「內源性推理偏移」的影響，這是一種在自迴歸生成過程中自發出現的不可預測分布變化，完全獨立於外部環境的干擾。

團隊以 Qwen2.5-VL 作為基礎模型，並使用 DPO（直接偏好優化）在 MIMIC-CXR 數據集上進行強化微調測試。實驗觀察到，在思考過程的生成中，模型對特定詞彙（如「lung opacity」與「opacity」）的選擇呈現隨機性。即使這些詞彙變體在語義上的差異微乎其微，其所導致的最終病理預測結果卻可能南轅北轍。這種不穩定性突顯了一個關鍵漏洞：模型的推理軌跡會發生系統性發散，使得最終決策脫離了最初的邏輯前提。

256個視覺Token注意力崩潰揭示感知脫鉤

除了文字生成的邏輯偏移，內源性推理偏移更深遠的影響在於視覺感知的系統性崩潰。研究人員視覺化了思考過程生成時的跨模態注意力分佈，追蹤從胸部 X 光片編碼出的 256 個視覺 token 的注意力分數。數據顯示，當文字推理端出現微小的偏移時，模型對視覺特徵的注意力分佈會發生嚴重的重組與退化。

具體而言，在預測病灶位置的階段，原本應廣泛且強烈活化於相關區域的注意力，會退化成稀疏且孤立的雜訊。進入最終推論階段時，模型對關鍵影像區域的注意力甚至會完全消失。這項證據表明，非平穩強化微調中的內源性推理偏移不僅源於累積的語言偏差，更來自於根本性的注意力轉移。當推理軌跡失去其視覺證據的基礎，將導致自動駕駛或醫療診斷等高風險系統產生災難性的錯誤傳播。

CPO++ 框架導入反事實推理與領域知識圖譜

為克服現有對齊方法的侷限性，研究團隊提出了 CPO++（Counterfactual Preference Optimization ++） 框架，旨在統一處理非平穩環境下的多模態概念偏移。建立在先前僅針對文字邏輯一致性的 CPO 基礎上，CPO++ 首次將反事實解耦機制從孤立的思考層面擴展至視覺感知層面。該框架整合了領域知識與反事實推理，能在不依賴外部專家監督的情況下，由基礎模型自主合成高度對齊的偏好路徑與精確解耦的反事實軌跡。

系統首先建構了一個階層式領域知識圖譜，將實體、屬性與關聯性進行系統化組織。以胸部 X 光領域為例，該圖譜涵蓋了 12 種疾病實體以及 53 種臨床屬性。給定初始影像與提示詞後，模型會生成初始的思考軌跡，並在知識圖譜的引導下執行受控的特徵擾動。透過替換關鍵屬性以合成一系列合理的反事實推理路徑，模型得以學習區分真實的因果邏輯與虛假的數據相關性。

視覺推理一致性協議篩選高難度感知反事實樣本

為了徹底消除多模態結構不對稱的問題，CPO++ 引入了全新的「視覺推理一致性協議（visual-reasoning consistency protocol）」，直接對內部的視覺偏移進行懲罰。系統會將每筆訓練資料的思考軌跡分解為離散的語義屬性，並在屬性空間中透過最近鄰搜索，從候選池中提取出一組與原始影像具有高度語義相似性、但細微特徵不同的視覺反事實樣本。

在這個過濾機制中，目標 MLLM 本身被當作一致性判別器。當模型無法將正確的推理路徑與原始影像對齊，反而給予干擾影像較高的匹配機率時，代表模型內部發生了嚴重的感知偏移。這些配對失敗的高難度樣本會被標記為視覺反事實資料，並明確整合至偏好優化目標中。透過將文字推理嚴格錨定於真實的視覺證據，CPO++ 有效阻斷了視覺注意力崩潰的風險。

醫療與自動駕駛領域驗證 CPO++ 跨域泛化力

整合了思考與感知雙視角的反事實干預後，CPO++ 透過動態策略強化來驅動 MLLM 的自訂微調。基於 Bradley-Terry 模型，系統透過最大化人類偏好的正面樣本與自動生成的反事實負面樣本之間的獎勵差異，迫使模型主動修正多模態概念偏移。這使得 MLLM 能夠在保有優勢領域適應能力的同時，系統性地剔除因內部生成機制而產生的干擾偏差。

研究團隊在醫療診斷與自動駕駛這兩個高度動態且安全至關重要的領域進行了廣泛的實證評估。結果顯示，CPO++ 在推理連貫性、決策精確度以及抵禦極端干擾的內在穩健性上，均展現出卓越的表現。此外，該方法在零樣本（zero-shot）跨領域泛化測試中也表現優異，證明將因果干預內建於強化微調中，能為多模態推理系統提供具備高度可靠性的原則性基礎。

將雙向反事實因果推理內建於強化微調中，是防範多模態模型內部認知崩潰並確保關鍵決策安全的有效路徑。

Abstract

Reinforcement Fine-Tuning (RFT) has established itself as a critical paradigm for the alignment of Multi-modal Large Language Models (MLLMs) with complex human values and domain-specific requirements. Nevertheless, current research primarily focuses on mitigating exogenous distribution shifts arising from data-centric factors, the non-stationarity inherent in the endogenous reasoning remains largely unexplored. In this work, a critical vulnerability is revealed within MLLMs: they are highly susceptible to endogenous reasoning drift, across both thinking and perception perspectives. It manifests as unpredictable distribution changes that emerge spontaneously during the autoregressive generation process, independent of external environmental perturbations. To adapt it, we first theoretically define endogenous reasoning drift within the RFT of MLLMs as the multi-modal concept drift. In this context, this paper proposes Counterfactual Preference Optimization ++ (CPO++), a comprehensive and autonomous framework adapted to the multi-modal concept drift. It integrates counterfactual reasoning with domain knowledge to execute controlled perturbations across thinking and perception, employing preference optimization to disentangle spurious correlations. Extensive empirical evaluations across two highly dynamic and safety-critical domains: medical diagnosis and autonomous driving. They demonstrate that the proposed framework achieves superior performance in reasoning coherence, decision-making precision, and inherent robustness against extreme interference. The methodology also exhibits exceptional zero-shot cross-domain generalization, providing a principled foundation for reliable multi-modal reasoning in safety-critical applications.

Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning

Qwen2.5-VL 揭露多模態模型內源性推理偏移

256個視覺Token注意力崩潰揭示感知脫鉤

CPO++ 框架導入反事實推理與領域知識圖譜

視覺推理一致性協議篩選高難度感知反事實樣本

醫療與自動駕駛領域驗證 CPO++ 跨域泛化力

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

無痛修正擴散模型的 SNR 偏差，小波域動態差分校正使 FID 降低 47.1%。

免除 3D 重建，TokenLight 依靠物理屬性標記即能在 2D 照片中精準生成複雜遮擋與玻璃折射光影。