單次解碼內按需放大：FoveateR 打破 VLM 高解析度 O(N²) 算力瓶頸

AI 導讀 technology AI 重要性 4/5

MLP 直接輸出連續座標框取代文字座標，消除格式脆弱性與額外 token 開銷
KV-cache 保留所有注入的高解析視覺 token，推理狀態不因放大操作中斷
GRPO 強化學習加大框面積懲罰，防止模型把整圖看完的獎勵駭客策略

影像解析度翻倍，VLM（視覺語言模型）的注意力計算量就暴增 4 倍，這個 O(N²) 瓶頸讓高解析度視覺理解代價極高。三星 AI 中心（Samsung AI Center）的 FoveateR 借鑑人類視網膜中央凹（fovea）的工作機制：先看低解析度全景，需要細節時才以非語言動作局部放大，全程維持在單次自迴歸解碼（autoregressive decoding）流程中完成，不重啟、不斷連。

VLM 高解析度的算力困境：token 數平方的代價

視覺 Transformer 把影像切成 patch（小區塊），每個 patch 對應一個視覺 token（視覺詞元）。解析度提高一倍，token 數量變 4 倍，而自注意力（self-attention）的計算量與記憶體需求以 token 數的平方成長——解析度翻倍，算力暴增 16 倍。

這個困境的直接後果是，大部分 VLM 在部署時為了控制成本，只能餵入低解析度圖像，犧牲細粒度（fine-grained）的視覺細節，在辨識小文字、細微圖表或精細物件輪廓的任務上吃虧。「視覺聚焦（visual focusing）」方法試圖緩解這個困境：先看低解析度全圖判斷哪個區域需要細節，再選擇性放大取得高解析度證據。策略方向正確，但現有實作各有缺陷。

多輪解碼與文字座標：現有兩類方法各自的問題

現有視覺聚焦方法分為兩個流派。多輪解碼（multi-pass）方法先跑一次 VLM 決定要放大哪個區域，再把裁切後的高解析圖塊送入第二次（或更多次）完整解碼流程。每次放大就需要一次新的自迴歸解碼，不僅計算開銷大，每次啟動新解碼流程更會重置模型的隱藏狀態（hidden state），推理的連續性因此被打斷。

文字座標（text-grounded）方法訓練 VLM 把要聚焦的區域位置寫成文字座標（例如 [x, y, w, h]），讓座標和推理文字交錯出現。這個方法有兩個問題：其一是格式脆弱性（format brittleness）——一點格式偏差就讓輸出無法解析；其二是把連續的空間座標硬塞進離散詞彙表，等同對連續動作空間做量化（quantization），精度有損，且座標字串本身消耗額外的 token 預算。

FoveateR 的核心洞察是：這兩類方法模仿了視覺聚焦的結果，卻沒有實作其過程。人類眼球運動是有狀態的（stateful）、非語言的（non-linguistic），在單次持續的意識流中進行——而不是每次看新地方就重啟推理起點。

FoveateR 設計：`<fov>` token 觸發，MLP 預測連續邊界框

FoveateR 把解碼器視為在部分可觀測 MDP（Markov Decision Process，馬可夫決策過程）中運作的智能體（agent）。模型從低解析度圖像出發，進行標準的自迴歸文字生成。當需要局部細節時，模型輸出特殊 token <fov> 作為觸發信號——這時不是寫出文字座標，而是啟動一個輕量 MLP 策略網路 π_ϕ，直接從當前隱藏狀態 h_t 預測出一個連續的邊界框 [cx, cy, w, h]。

系統根據這個框從原始高解析度影像裁切對應區域，tokenize（詞元化）後以 <fov>…</fov> 結構注入同一條解碼流的上下文，讓後續生成步驟可直接在此視覺證據基礎上推理，無需重啟或重置隱藏狀態。代理人的「記憶」由 Transformer 的 KV-cache（鍵值快取）實作：每一步累積的所有 token——包括已注入的高解析視覺區塊——都保存在快取中，形成完整的推理連續性。

這個設計同時解決了多輪方法的「重置問題」和文字座標方法的「格式脆弱性問題」，也因為框座標是連續值（非離散文字），可以直接對框的面積做微分正則化——這在後續的 RL 訓練中至關重要。

兩段式訓練：冷啟動 SFT 接 GRPO 強化學習

預訓練 VLM 從未見過 <fov> token，訓練因此分兩階段進行。第一階段冷啟動監督微調（coldstart SFT）：研究者從現有視覺推理資料集構建訓練樣本——讓預訓練 VLM 先生成推理文字，再用 grounding 模型把每句話定位到圖像的對應區域，組合成「先看哪裡 → 再推理什麼」的交錯序列，作為 teacher-forcing 的監督目標。損失函數結合語言模型損失（預測下一 token）和邊界框 L1 回歸損失。

第二階段 GRPO（Group Relative Policy Optimization，群組相對策略優化）強化學習：冷啟動給了模型基本的 <fov> 使用能力，但偽標籤（pseudo-labels）可能讓模型過度依賴教師模型的聚焦習慣。GRPO 讓模型依據實際答題表現的相對獎勵，自主調整何時放大、放大哪裡、放大多大。研究者還引入防「獎勵駭客（reward hacking）」的正則化項：當模型回答正確時，若聚焦框面積過大會額外懲罰——防止模型學到把整張圖都看完的取巧策略。這個正則化項能直接對連續框面積做梯度更新，是文字座標方法做不到的。

765K 訓練樣本、12 個 Benchmark 評估 Qwen2.5-VL 3B/7B

訓練資料共 765K 樣本：Visual CoT benchmark 438K、RefCOCO/+/g 321K、ScienceQA 6K。FoveateR 以 Qwen2.5-VL（3B 和 7B）為骨幹，冷啟動訓練 3 個 epoch，強化學習訓練 7 萬步，批次大小 16。評估在 Visual CoT benchmark 的 12 個資料集及 V* Bench 上進行，後者特別針對細粒度視覺感知（直接屬性辨識、GPT4V-hard、OCR 子集）。

一個 <fov> token + MLP 策略網路，把人眼中央凹「有狀態、非語言、單次進行」的注視機制移植進 VLM，在不重啟解碼的前提下按需取用高解析度細節。

FoveateR 訓練資料來源分布（共 765K 樣本）

Visual CoT Benchmark 評估集分類（共 12 個資料集）

類別	涵蓋資料集
文件/文字/圖表理解	DocVQA, TextCaps, TextVQA, DUDE, SROIE, InfographicsVQA
一般視覺問答	Flickr30k, Visual7W
關係推理	GQA, OpenImages, VSR
細粒度視覺理解	CUB

Abstract

Vision-language models benefit from high-resolution images, but the increase in visual-token count incurs high compute overhead. Humans resolve this tension via foveation: a coarse view guides "where to look", while selectively acquired high-acuity evidence refines "what to think". We introduce Foveated Reasoner, an autoregressive vision-language framework that unifies foveation and reasoning within a single decoding trajectory. Starting from a low-resolution view, the model triggers foveation only when needed, retrieves high-resolution evidence from selected regions, and injects it back into the same decoding trajectory. We train the method with a two-stage pipeline: coldstart supervision to bootstrap foveation behavior, followed by reinforcement learning to jointly improve evidence acquisition and task accuracy while discouraging trivial "see-everything" solutions. Experiments show that the method learns effective foveation policies and achieves stronger accuracy under tight visual-token budgets across multiple vision-language benchmarks.

Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models

VLM 高解析度的算力困境：token 數平方的代價

多輪解碼與文字座標：現有兩類方法各自的問題

FoveateR 設計：<fov> token 觸發，MLP 預測連續邊界框

兩段式訓練：冷啟動 SFT 接 GRPO 強化學習

765K 訓練樣本、12 個 Benchmark 評估 Qwen2.5-VL 3B/7B

Abstract

🔗 相關推薦

GPT-5.5 完整重訓代理人模型，五項基準全面領先

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

FoveateR 設計：`<fov>` token 觸發，MLP 預測連續邊界框

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。