Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

Nishanth Madhusudhan, Vikas Yadav, Alexandre Lacoste

View Original ↗
AI 導讀 technology AI 重要性 4/5

實測2079題無解測試,前沿VLM預設棄權率近零,寧捏造錯誤也不承認無知。

  • 首創2079題無解基準,專注評估多模態AI的棄權感知能力。
  • 模型極少主動棄權,需仰賴極端懲罰提示才能逼出潛藏的不確定性。
  • MAS能提升棄權率卻犧牲準確率,必須轉向原生的棄權感知訓練。

在面對2079筆刻意設計的無解多模態考題時,當前最先進的視覺語言模型展現出令人擔憂的過度自信。根據ServiceNow Research發布的最新評測,在預設提示條件下,GPT-5Claude Sonnet 4.5等前沿模型在面對資訊不足的圖像與文件時,承認「我不知道」的機率逼近於零,且在超過80%的無解情境中直接捏造錯誤答案。這項研究揭示了多模態系統在知識邊界上的嚴重校準失常。

破除必有解假設:2079題無解基準MM-AQA發布

現今針對VLM(視覺語言模型)的評測基準(如MMMU)普遍帶有一個根本性限制:預設所有題目皆有標準答案。這種設計變相鼓勵模型在任何情況下都必須給出回應,忽略了現實環境中經常出現的視覺遮蔽、上下文遺失或問題超綱等「無解」情境。當模型擅長應付標準測試卻無法識別自身知識邊界時,部署於高風險場景將引發嚴重的幻覺與誤判。

為了解決這個評測缺口,研究團隊構建了MM-AQA(多模態棄權問答)基準測試。該題庫包含2079個樣本,分別衍生自MMMU的STEM領域(A-MMMU,553題)以及MMLongBench-Doc文件理解庫(A-MMLBD,1526題),並維持有解與無解樣本1:1的精確比例。所有無解題目皆不是透過單純降噪或隨機破壞產生,而是經過一套嚴謹的雙軸轉換分類學進行建構。

在A-MMMU的「模態依賴性」軸線上,系統會將影像重要性分為四個等級,並針對依賴影像的考題套用極端裁切等缺失視覺資訊干擾;針對依賴文字的考題則套用語義無解與對抗性模糊。在A-MMLBD的「證據充分性」軸線上,則針對多頁文件進行證據移除(隱藏關鍵頁面)、證據損壞(竄改數值)、語義矛盾與時間基準偏移等22種深層結構破壞,確保模型無法透過表面特徵作弊。

GPT-5實測:預設提示下棄權率幾近歸零

研究團隊對GPT-5、Claude Sonnet 4.5以及Qwen 2.5-32B-VL三款前沿模型進行了多維度測試。在獨立模型(Standalone)的標準提示設定下,所有模型的無解辨識能力全面崩潰。在A-MMMU子集中,Sonnet 4.5的無解準確率(UAC)僅有1.2%,GPT-5為4.9%,Qwen 2.5為4.0%;更致命的是,這些模型在超過80%的無解樣本中直接給出錯誤答案,證明前沿VLM在跨模態推理時極易產生幻覺。

為了與現有方法對比,研究也測試了多種棄權基準策略。結果顯示,純靠自我一致性(Self-Consistency)的多重採樣在視覺任務上表現極差,因為面對模糊的視覺特徵時,模型產生錯誤答案的變異性反而會提供虛假的信心。相比之下,讓模型直接輸出口語化信心分數再設定閾值的簡單做法,反而超越了預設提示的表現。但即便如此,兩大數據集對應的最佳信心閾值截然不同,證明口語化信心在感知任務上依然是一個微弱且不穩定的訊號。

為了探究模型是缺乏還是隱藏了不確定性訊號,團隊引入了極端棄權條款(Extreme Abstain),在提示詞中對錯誤給予明確的懲罰壓力。結果顯示在此高壓條件下,Sonnet 4.5在A-MMMU的UAC從1.2%狂飆至41.5%,GPT-5也提升至37.2%。這項對比證實了現代大型模型內部其實具備評估不確定性的能力,只是在預設解碼機制的引導下被強行壓抑。然而,即便套用懲罰條款,依然沒有模型能突破75.7%的UAC上限。

MAS架構實測:準確度與棄權率的零和博弈

為進一步強化模型的棄權能力,研究測試了由推理者、驗證者與協調者組成的MAS(多智能體系統)。驗證者握有最終否決權,能覆寫推理者的答案並強制輸出「我不知道」。數據指出,MAS架構的確能大幅推升棄權率,Claude驅動的MAS在A-MMMU中能將UAC拉高至75-92%

然而這種防禦機制的代價極高。驗證者在27-52%的回合中推翻了原先正確的推理,導致整體可解答準確率(AAC)大幅下挫至36-40%。GPT-5在MAS序列模式下展現了相對平衡的妥協點,於A-MMLBD中取得57.3%的AAC與74.5%的UAC。總結來說,系統在精準作答與安全棄權之間形成了無法跨越的帕雷托前緣(Pareto frontier)。同時,增加推理回合數的迭代模式並未帶來優勢,證明當前的瓶頸在於基礎校準能力不足,而非推理深度的匱乏。

結構顯著性法則:模型寧可調和矛盾也不願棄權

透過對22種不同破壞手法的交叉比對,研究歸納出決定模型是否棄權的核心機制:結構顯著性(Structural explicitness)。模型的決策邏輯並不取決於影像或文字哪種模態被破壞,而是取決於資訊缺失的物理特徵有多明顯。當無解原因被清晰編碼在輸入結構中,模型就容易觸發棄權機制。

在長篇文件推理A-MMLBD中,證據移除(隱藏關鍵頁碼)的棄權成功率高達86.4%,因為文件物理上的斷層極度明顯。相反地,在語義矛盾測試中,當研究植入與正確圖表完全相反的干擾圖說時,模型的UAC暴跌至全場最低的37.6%。面對衝突,模型的第一直覺是努力去調和矛盾、腦補合理性,而不是承認證據不足。

同樣的邏輯也體現在視覺題中。語義無解(針對完好的圖片問不相干的問題)棄權率高達78.5%,因為題目本身邏輯破裂得非常明顯。然而在缺失視覺資訊的分類下,即便影像被重度裁切或打上馬賽克,只要還有部分像素殘留且題目文字連貫,模型就會被強烈的作答慣性拉扯,試圖從碎屑中拼湊答案,導致這類題型的UAC僅剩26.2%

跨越過度自信:轉向原生棄權感知訓練的必要性

MM-AQA基準測試清楚描繪了當前多模態推理系統的知識邊界盲區。無論是最新的閉源巨獸還是開源強權,預設狀態下的模型都像是永遠不會拒絕回答的機器。引入多智能體驗證雖然能建立一道防線,但這種依賴強制覆寫的外掛式棄權,不可避免地會犧牲原本的推理精準度。

評測中高達49%的專家基準差距凸顯了現階段技術無法單靠更複雜的提示詞或更多代理人來解決問題。未來的開發方向必須回到模型底層,將具備層次性的無解樣本納入對齊與微調階段,進行原生的棄權感知訓練。同時,針對視覺輸入的語義熵與VLM專屬校準等技術,將是下一代多模態系統提升可靠度的關鍵核心。

面對矛盾與殘缺證據時,AI的直覺是強行調和而非承認無知;唯有在底層訓練中植入原生棄權感知,才能真正打破精準度與安全性的零和博弈。

Abstract

Effective abstention (EA), recognizing evidence insufficiency and refraining from answering, is critical for reliable multimodal systems. Yet existing evaluation paradigms for vision-language models (VLMs) and multi-agent systems (MAS) assume answerability, pushing models to always respond. Abstention has been studied in text-only settings but remains underexplored multimodally; current benchmarks either ignore unanswerability or rely on coarse methods that miss realistic failure modes. We introduce MM-AQA, a benchmark that constructs unanswerable instances from answerable ones via transformations along two axes: visual modality dependency and evidence sufficiency. Evaluating three frontier VLMs spanning closed and open-source models and two MAS architectures across 2079 samples, we find: (1) under standard prompting, VLMs rarely abstain; even simple confidence baselines outperform this setup, (2) MAS improves abstention but introduces an accuracy-abstention trade-off, (3) sequential designs match or exceed iterative variants, suggesting the bottleneck is miscalibration rather than reasoning depth, and (4) models abstain when image or text evidence is absent, but attempt reconciliation with degraded or contradictory evidence. Effective multimodal abstention requires abstention-aware training rather than better prompting or more agents.