DistortBench: Benchmarking Vision Language Models on Image Distortion Identification
18 個 VLM 辨識 27 種影像失真,最強僅 61.9%,低於人類多數決 65.7%。
- 最強模型 61.9% 低於人類多數決 65.7%;鏈式推理在感知任務反而拖後腿,5 組 4 組失敗。
- 3B 的 Kimi-VL 與 38B 的 InternVL3.5 準確率打平,規模無法預測底層感知準確率。
- 去噪偽影平均 26.2% 接近隨機猜測,與最容易的高斯模糊 67.4% 相差 41 個百分點。
在 DistortBench 的測試中,最強的 Qwen3.5 27B 對影像失真的辨識準確率只有 61.9%,仍低於三位人類標注員多數決的 65.7%。更出乎意料的是,Chain-of-Thought(鏈式推理)在感知任務上並不加分——5 組基礎版對比推理版的比較,4 組都是基礎版贏。
DistortBench:13,500 道四選一題的低階感知評測設計
DistortBench 是 Adobe 研究團隊發布的 VLM(視覺語言模型)診斷基準,專門評估模型對影像失真類型與嚴重程度的辨識能力。基準由 13,500 道四選一選擇題組成,涵蓋 6 大感知類別下的 27 種失真類型,每種類型分 5 個嚴重程度等級——從幾乎無感(Level 1)到明顯可見(Level 5)。六大類別涵蓋模糊(Blur)、色彩(Color)、壓縮(Compression)、噪點(Noise)、亮度(Luminance)與空間(Spatial)失真。
題目設計採無參考(No-Reference)模式:模型只看失真後的圖像,無法取得原始乾淨版,必須直接判斷是何種失真及嚴重程度——這模擬了內容稽核、自動修復管線等現實場景中普遍無原始檔可比對的情況。每題包含三種干擾選項:相同類型但不同嚴重度、不同類型但相同嚴重度、類型與嚴重度皆不同,分別測試嚴重度辨別、類型辨別與整體判斷三項能力。
人類基準由 3 位具影像領域碩士學歷的標注員對 256 張圖進行盲測,多數決準確率 65.7%(95% CI: [59.4%, 71.5%]),個人平均 60.2%,標注員一致性屬中等(Fleiss κ=0.46),9% 的樣本三人無共識——顯示這個任務對人類本身也相當困難。
最強開源模型 Qwen3.5 27B 以 61.9% 奪冠,GPT-5.4 落入中游
18 個模型(含 GPT-5.4 與 17 個開源模型)的整體評測中,Qwen3.5 家族幾乎包辦前六名。最小的 Qwen3.5 4B(基礎版)以 56.1% 超越了 GPT-5.4 的 51.6%,暗示這個家族在底層視覺感知上具有顯著架構優勢。Qwen2-VL 7B 以 36.7% 遠遜於同規模的 Qwen3.5,凸顯兩個世代之間的明顯差距。
各類別難度分布極端:最難的去噪偽影(Denoising artifacts)跨模型平均僅 26.2%,幾乎等於 25% 隨機猜測線——其過度平滑的偽影與輕度模糊視覺上極為相似;最容易的高斯模糊(Gaussian blur)達 67.4%,兩者相差 41 個百分點。旋轉失真(Rotation)平均排名靠前,但跨模型標準差高達約 19%:某些模型超過 80%,某些低於 40%,指向架構對幾何感知的差異。
錯誤方向分析顯示,嚴重度「低估」(猜比實際更輕微的等級)在所有模型中普遍多於「高估」,且在弱模型中不對稱性更明顯。人類的失誤模式相同:類型辨識個人準確率平均 83.6%,嚴重度辨識僅 69.9%——確認嚴重度判斷才是人類與模型共同的主要失敗模式。
規模效應非線性:12.7 倍參數差卻打平的奇異結果
「模型越大越強」在 DistortBench 上並不成立。Qwen3.5 基礎版的表現順序是:9B(51.8%)< 4B(56.1%)< 35B MoE(56.8%)< 27B(61.9%)。35B 雖然總參數最多,但其混合專家架構(Mixture-of-Experts,MoE)的實際激活參數僅 3B,表現反落後於全密集的 27B。
InternVL3.5 同樣違反直覺:14B(43.4%)準確率不及 8B(44.4%),置信區間重疊,差異不顯著。最極端的案例是 Kimi-VL A3B(3B 激活參數,52.4%)與 InternVL3.5 38B(52.6%)的置信區間完全重疊——後者參數量是前者的 12.7 倍,統計上卻無顯著差異。以全體模型擬合 log-linear 模型,R² 極低,確認規模對感知準確率的預測力薄弱;架構創新與視覺編碼器品質,比單純擴大參數量更能決定底層感知表現。
Chain-of-Thought 拖累感知準確率:5 組比較 4 組失敗
5 組基礎版對推理版的配對比較中,4 組均是基礎版勝出:Qwen3.5 27B 基礎版 61.9% 對推理版 58.2%(-3.7 pp);Kimi-VL 差距最大,52.4% 對 44.0%(-8.4 pp)。唯一例外是 Qwen3.5 9B,推理版高出 +3.2 pp。
研究者的解讀是:影像失真辨識依靠直接模式匹配(Direct Pattern Matching),答案是「看到的」而非「推導出的」——顯式推理鏈對感知訊號引入干擾,在高階推理任務上的優勢反而成了感知任務的阻力。推理版模型的無效回應率(0.8–3.4%)也高於基礎版(0–0.7%):部分推理過程耗盡 8,192 token 的生成預算後仍未輸出最終答案,被排除計分後的有效子集略偏容易,真實差距可能更大。
基礎模型的 U 形嚴重度曲線與 GPT-5.4 的單調攀升
嚴重程度分析揭示兩種截然不同的回應模式。基礎模型普遍呈 U 形曲線:Level 1 和 Level 5 兩端表現較好,Level 2–3 出現明顯谷底。Qwen3.5 27B 基礎版的分布是:Level 1(64.7%)→ Level 2(55.7%)→ Level 3(54.4%)→ Level 4(61.8%)→ Level 5(73.0%)——中段比兩端低了近 10 個百分點。
GPT-5.4 呈現所有模型中最陡峭的單調攀升:Level 1 僅 38.4%(遠低於平均),一路升至 Level 5 的 72.9%,跨度達 34.5 個百分點,模式與所有開源家族截然不同。人類標注員也在 Level 2 出現谷底(53.8%),Level 5 達 77.2%,顯示這種非線性並非 VLM 特有,而是任務本身的固有特性。
VLM 的低階感知既不隨規模線性提升,Chain-of-Thought 也幫不了忙——最強模型 61.9% 仍差人類多數決 3.8 個百分點,填補這段差距需要的是架構創新,而非單純加大模型。
| 嚴重程度等級 | 描述 | 準確率 (%) |
|---|---|---|
| Level 1 | 幾乎無感 | 64.7 |
| Level 2 | 輕微 | 55.7 |
| Level 3 | 中等 | 54.4 |
| Level 4 | 明顯 | 61.8 |
| Level 5 | 強烈可見 | 73.0 |