18 個 VLM 辨識 27 種影像失真，最強僅 61.9%，低於人類多數決 65.7%。

AI 導讀 technology AI 重要性 4/5

最強模型 61.9% 低於人類多數決 65.7%；鏈式推理在感知任務反而拖後腿，5 組 4 組失敗。
3B 的 Kimi-VL 與 38B 的 InternVL3.5 準確率打平，規模無法預測底層感知準確率。
去噪偽影平均 26.2% 接近隨機猜測，與最容易的高斯模糊 67.4% 相差 41 個百分點。

在 DistortBench 的測試中，最強的 Qwen3.5 27B 對影像失真的辨識準確率只有 61.9%，仍低於三位人類標注員多數決的 65.7%。更出乎意料的是，Chain-of-Thought（鏈式推理）在感知任務上並不加分——5 組基礎版對比推理版的比較，4 組都是基礎版贏。

DistortBench：13,500 道四選一題的低階感知評測設計

DistortBench 是 Adobe 研究團隊發布的 VLM（視覺語言模型）診斷基準，專門評估模型對影像失真類型與嚴重程度的辨識能力。基準由 13,500 道四選一選擇題組成，涵蓋 6 大感知類別下的 27 種失真類型，每種類型分 5 個嚴重程度等級——從幾乎無感（Level 1）到明顯可見（Level 5）。六大類別涵蓋模糊（Blur）、色彩（Color）、壓縮（Compression）、噪點（Noise）、亮度（Luminance）與空間（Spatial）失真。

題目設計採無參考（No-Reference）模式：模型只看失真後的圖像，無法取得原始乾淨版，必須直接判斷是何種失真及嚴重程度——這模擬了內容稽核、自動修復管線等現實場景中普遍無原始檔可比對的情況。每題包含三種干擾選項：相同類型但不同嚴重度、不同類型但相同嚴重度、類型與嚴重度皆不同，分別測試嚴重度辨別、類型辨別與整體判斷三項能力。

人類基準由 3 位具影像領域碩士學歷的標注員對 256 張圖進行盲測，多數決準確率 65.7%（95% CI: [59.4%, 71.5%]），個人平均 60.2%，標注員一致性屬中等（Fleiss κ=0.46），9% 的樣本三人無共識——顯示這個任務對人類本身也相當困難。

最強開源模型 Qwen3.5 27B 以 61.9% 奪冠，GPT-5.4 落入中游

18 個模型（含 GPT-5.4 與 17 個開源模型）的整體評測中，Qwen3.5 家族幾乎包辦前六名。最小的 Qwen3.5 4B（基礎版）以 56.1% 超越了 GPT-5.4 的 51.6%，暗示這個家族在底層視覺感知上具有顯著架構優勢。Qwen2-VL 7B 以 36.7% 遠遜於同規模的 Qwen3.5，凸顯兩個世代之間的明顯差距。

各類別難度分布極端：最難的去噪偽影（Denoising artifacts）跨模型平均僅 26.2%，幾乎等於 25% 隨機猜測線——其過度平滑的偽影與輕度模糊視覺上極為相似；最容易的高斯模糊（Gaussian blur）達 67.4%，兩者相差 41 個百分點。旋轉失真（Rotation）平均排名靠前，但跨模型標準差高達約 19%：某些模型超過 80%，某些低於 40%，指向架構對幾何感知的差異。

錯誤方向分析顯示，嚴重度「低估」（猜比實際更輕微的等級）在所有模型中普遍多於「高估」，且在弱模型中不對稱性更明顯。人類的失誤模式相同：類型辨識個人準確率平均 83.6%，嚴重度辨識僅 69.9%——確認嚴重度判斷才是人類與模型共同的主要失敗模式。

18 個 VLM 在 DistortBench 的失真辨識準確率（%）

規模效應非線性：12.7 倍參數差卻打平的奇異結果

「模型越大越強」在 DistortBench 上並不成立。Qwen3.5 基礎版的表現順序是：9B（51.8%）< 4B（56.1%）< 35B MoE（56.8%）< 27B（61.9%）。35B 雖然總參數最多，但其混合專家架構（Mixture-of-Experts，MoE）的實際激活參數僅 3B，表現反落後於全密集的 27B。

InternVL3.5 同樣違反直覺：14B（43.4%）準確率不及 8B（44.4%），置信區間重疊，差異不顯著。最極端的案例是 Kimi-VL A3B（3B 激活參數，52.4%）與 InternVL3.5 38B（52.6%）的置信區間完全重疊——後者參數量是前者的 12.7 倍，統計上卻無顯著差異。以全體模型擬合 log-linear 模型，R² 極低，確認規模對感知準確率的預測力薄弱；架構創新與視覺編碼器品質，比單純擴大參數量更能決定底層感知表現。

Chain-of-Thought 拖累感知準確率：5 組比較 4 組失敗

5 組基礎版對推理版的配對比較中，4 組均是基礎版勝出：Qwen3.5 27B 基礎版 61.9% 對推理版 58.2%（-3.7 pp）；Kimi-VL 差距最大，52.4% 對 44.0%（-8.4 pp）。唯一例外是 Qwen3.5 9B，推理版高出 +3.2 pp。

研究者的解讀是：影像失真辨識依靠直接模式匹配（Direct Pattern Matching），答案是「看到的」而非「推導出的」——顯式推理鏈對感知訊號引入干擾，在高階推理任務上的優勢反而成了感知任務的阻力。推理版模型的無效回應率（0.8–3.4%）也高於基礎版（0–0.7%）：部分推理過程耗盡 8,192 token 的生成預算後仍未輸出最終答案，被排除計分後的有效子集略偏容易，真實差距可能更大。

基礎模型的 U 形嚴重度曲線與 GPT-5.4 的單調攀升

嚴重程度分析揭示兩種截然不同的回應模式。基礎模型普遍呈 U 形曲線：Level 1 和 Level 5 兩端表現較好，Level 2–3 出現明顯谷底。Qwen3.5 27B 基礎版的分布是：Level 1（64.7%）→ Level 2（55.7%）→ Level 3（54.4%）→ Level 4（61.8%）→ Level 5（73.0%）——中段比兩端低了近 10 個百分點。

GPT-5.4 呈現所有模型中最陡峭的單調攀升：Level 1 僅 38.4%（遠低於平均），一路升至 Level 5 的 72.9%，跨度達 34.5 個百分點，模式與所有開源家族截然不同。人類標注員也在 Level 2 出現谷底（53.8%），Level 5 達 77.2%，顯示這種非線性並非 VLM 特有，而是任務本身的固有特性。

VLM 的低階感知既不隨規模線性提升，Chain-of-Thought 也幫不了忙——最強模型 61.9% 仍差人類多數決 3.8 個百分點，填補這段差距需要的是架構創新，而非單純加大模型。

Qwen3.5 27B 基礎版的嚴重度等級準確率（U 形分布）

嚴重程度等級	描述	準確率 (%)
Level 1	幾乎無感	64.7
Level 2	輕微	55.7
Level 3	中等	54.4
Level 4	明顯	61.8
Level 5	強烈可見	73.0

Abstract

Vision-language models (VLMs) are increasingly used in settings where sensitivity to low-level image degradations matters, including content moderation, image restoration, and quality monitoring. Yet their ability to recognize distortion type and severity remains poorly understood. We present DistortBench, a diagnostic benchmark for no-reference distortion perception in VLMs. DistortBench contains 13,500 four-choice questions covering 27 distortion types, six perceptual categories, and five severity levels: 25 distortions inherit KADID-10k calibrations, while two added rotation distortions use monotonic angle-based levels. We evaluate 18 VLMs, including 17 open-weight models from five families and one proprietary model. Despite strong performance on high-level vision-language tasks, the best model reaches only 61.9% accuracy, just below the human majority-vote baseline of 65.7% (average individual: 60.2%), indicating that low-level perceptual understanding remains a major weakness of current VLMs. Our analysis further reveals weak and non-monotonic scaling with model size, performance drops in most base--thinking pairs, and distinct severity-response patterns across model families. We hope DistortBench will serve as a useful benchmark for measuring and improving low-level visual perception in VLMs.

DistortBench: Benchmarking Vision Language Models on Image Distortion Identification

DistortBench：13,500 道四選一題的低階感知評測設計

最強開源模型 Qwen3.5 27B 以 61.9% 奪冠，GPT-5.4 落入中游

規模效應非線性：12.7 倍參數差卻打平的奇異結果

Chain-of-Thought 拖累感知準確率：5 組比較 4 組失敗

基礎模型的 U 形嚴重度曲線與 GPT-5.4 的單調攀升

Abstract

🔗 相關推薦

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

5 參數視點 Token 精確控制文字轉圖像的相機視角，競爭方法 Compass Control 過擬合率達 94.2%，本文方法在鳳凰等未見類別上無此問題。

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。