DistortBench: Benchmarking Vision Language Models on Image Distortion Identification

Divyanshu Goyal, Akhil Eppa, Vanya Bannihatti Kumar

View Original ↗
AI 導讀 technology AI 重要性 4/5

18 個 VLM 辨識 27 種影像失真,最強僅 61.9%,低於人類多數決 65.7%。

  • 最強模型 61.9% 低於人類多數決 65.7%;鏈式推理在感知任務反而拖後腿,5 組 4 組失敗。
  • 3B 的 Kimi-VL 與 38B 的 InternVL3.5 準確率打平,規模無法預測底層感知準確率。
  • 去噪偽影平均 26.2% 接近隨機猜測,與最容易的高斯模糊 67.4% 相差 41 個百分點。

在 DistortBench 的測試中,最強的 Qwen3.5 27B 對影像失真的辨識準確率只有 61.9%,仍低於三位人類標注員多數決的 65.7%。更出乎意料的是,Chain-of-Thought(鏈式推理)在感知任務上並不加分——5 組基礎版對比推理版的比較,4 組都是基礎版贏。

DistortBench:13,500 道四選一題的低階感知評測設計

DistortBench 是 Adobe 研究團隊發布的 VLM(視覺語言模型)診斷基準,專門評估模型對影像失真類型與嚴重程度的辨識能力。基準由 13,500 道四選一選擇題組成,涵蓋 6 大感知類別下的 27 種失真類型,每種類型分 5 個嚴重程度等級——從幾乎無感(Level 1)到明顯可見(Level 5)。六大類別涵蓋模糊(Blur)、色彩(Color)、壓縮(Compression)、噪點(Noise)、亮度(Luminance)與空間(Spatial)失真。

題目設計採無參考(No-Reference)模式:模型只看失真後的圖像,無法取得原始乾淨版,必須直接判斷是何種失真及嚴重程度——這模擬了內容稽核、自動修復管線等現實場景中普遍無原始檔可比對的情況。每題包含三種干擾選項:相同類型但不同嚴重度、不同類型但相同嚴重度、類型與嚴重度皆不同,分別測試嚴重度辨別、類型辨別與整體判斷三項能力。

人類基準由 3 位具影像領域碩士學歷的標注員對 256 張圖進行盲測,多數決準確率 65.7%(95% CI: [59.4%, 71.5%]),個人平均 60.2%,標注員一致性屬中等(Fleiss κ=0.46),9% 的樣本三人無共識——顯示這個任務對人類本身也相當困難。

最強開源模型 Qwen3.5 27B 以 61.9% 奪冠,GPT-5.4 落入中游

18 個模型(含 GPT-5.4 與 17 個開源模型)的整體評測中,Qwen3.5 家族幾乎包辦前六名。最小的 Qwen3.5 4B(基礎版)以 56.1% 超越了 GPT-5.4 的 51.6%,暗示這個家族在底層視覺感知上具有顯著架構優勢。Qwen2-VL 7B 以 36.7% 遠遜於同規模的 Qwen3.5,凸顯兩個世代之間的明顯差距。

各類別難度分布極端:最難的去噪偽影(Denoising artifacts)跨模型平均僅 26.2%,幾乎等於 25% 隨機猜測線——其過度平滑的偽影與輕度模糊視覺上極為相似;最容易的高斯模糊(Gaussian blur)達 67.4%,兩者相差 41 個百分點。旋轉失真(Rotation)平均排名靠前,但跨模型標準差高達約 19%:某些模型超過 80%,某些低於 40%,指向架構對幾何感知的差異。

錯誤方向分析顯示,嚴重度「低估」(猜比實際更輕微的等級)在所有模型中普遍多於「高估」,且在弱模型中不對稱性更明顯。人類的失誤模式相同:類型辨識個人準確率平均 83.6%,嚴重度辨識僅 69.9%——確認嚴重度判斷才是人類與模型共同的主要失敗模式。

18 個 VLM 在 DistortBench 的失真辨識準確率(%)

規模效應非線性:12.7 倍參數差卻打平的奇異結果

「模型越大越強」在 DistortBench 上並不成立。Qwen3.5 基礎版的表現順序是:9B(51.8%)< 4B(56.1%)< 35B MoE(56.8%)< 27B61.9%)。35B 雖然總參數最多,但其混合專家架構(Mixture-of-Experts,MoE)的實際激活參數僅 3B,表現反落後於全密集的 27B。

InternVL3.5 同樣違反直覺:14B(43.4%)準確率不及 8B(44.4%),置信區間重疊,差異不顯著。最極端的案例是 Kimi-VL A3B(3B 激活參數,52.4%)與 InternVL3.5 38B(52.6%)的置信區間完全重疊——後者參數量是前者的 12.7 倍,統計上卻無顯著差異。以全體模型擬合 log-linear 模型,R² 極低,確認規模對感知準確率的預測力薄弱;架構創新與視覺編碼器品質,比單純擴大參數量更能決定底層感知表現。

Chain-of-Thought 拖累感知準確率:5 組比較 4 組失敗

5 組基礎版對推理版的配對比較中,4 組均是基礎版勝出:Qwen3.5 27B 基礎版 61.9% 對推理版 58.2%(-3.7 pp);Kimi-VL 差距最大,52.4% 對 44.0%(-8.4 pp)。唯一例外是 Qwen3.5 9B,推理版高出 +3.2 pp。

研究者的解讀是:影像失真辨識依靠直接模式匹配(Direct Pattern Matching),答案是「看到的」而非「推導出的」——顯式推理鏈對感知訊號引入干擾,在高階推理任務上的優勢反而成了感知任務的阻力。推理版模型的無效回應率(0.8–3.4%)也高於基礎版(0–0.7%):部分推理過程耗盡 8,192 token 的生成預算後仍未輸出最終答案,被排除計分後的有效子集略偏容易,真實差距可能更大。

基礎模型的 U 形嚴重度曲線與 GPT-5.4 的單調攀升

嚴重程度分析揭示兩種截然不同的回應模式。基礎模型普遍呈 U 形曲線:Level 1 和 Level 5 兩端表現較好,Level 2–3 出現明顯谷底。Qwen3.5 27B 基礎版的分布是:Level 1(64.7%)→ Level 2(55.7%)→ Level 3(54.4%)→ Level 4(61.8%)→ Level 5(73.0%)——中段比兩端低了近 10 個百分點。

GPT-5.4 呈現所有模型中最陡峭的單調攀升:Level 1 僅 38.4%(遠低於平均),一路升至 Level 5 的 72.9%,跨度達 34.5 個百分點,模式與所有開源家族截然不同。人類標注員也在 Level 2 出現谷底(53.8%),Level 5 達 77.2%,顯示這種非線性並非 VLM 特有,而是任務本身的固有特性。

VLM 的低階感知既不隨規模線性提升,Chain-of-Thought 也幫不了忙——最強模型 61.9% 仍差人類多數決 3.8 個百分點,填補這段差距需要的是架構創新,而非單純加大模型。

Qwen3.5 27B 基礎版的嚴重度等級準確率(U 形分布)
嚴重程度等級描述準確率 (%)
Level 1幾乎無感64.7
Level 2輕微55.7
Level 3中等54.4
Level 4明顯61.8
Level 5強烈可見73.0

Abstract

Vision-language models (VLMs) are increasingly used in settings where sensitivity to low-level image degradations matters, including content moderation, image restoration, and quality monitoring. Yet their ability to recognize distortion type and severity remains poorly understood. We present DistortBench, a diagnostic benchmark for no-reference distortion perception in VLMs. DistortBench contains 13,500 four-choice questions covering 27 distortion types, six perceptual categories, and five severity levels: 25 distortions inherit KADID-10k calibrations, while two added rotation distortions use monotonic angle-based levels. We evaluate 18 VLMs, including 17 open-weight models from five families and one proprietary model. Despite strong performance on high-level vision-language tasks, the best model reaches only 61.9% accuracy, just below the human majority-vote baseline of 65.7% (average individual: 60.2%), indicating that low-level perceptual understanding remains a major weakness of current VLMs. Our analysis further reveals weak and non-monotonic scaling with model size, performance drops in most base--thinking pairs, and distinct severity-response patterns across model families. We hope DistortBench will serve as a useful benchmark for measuring and improving low-level visual perception in VLMs.