Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models
單次解碼內按需放大:FoveateR 打破 VLM 高解析度 O(N²) 算力瓶頸
- MLP 直接輸出連續座標框取代文字座標,消除格式脆弱性與額外 token 開銷
- KV-cache 保留所有注入的高解析視覺 token,推理狀態不因放大操作中斷
- GRPO 強化學習加大框面積懲罰,防止模型把整圖看完的獎勵駭客策略
影像解析度翻倍,VLM(視覺語言模型)的注意力計算量就暴增 4 倍,這個 O(N²) 瓶頸讓高解析度視覺理解代價極高。三星 AI 中心(Samsung AI Center)的 FoveateR 借鑑人類視網膜中央凹(fovea)的工作機制:先看低解析度全景,需要細節時才以非語言動作局部放大,全程維持在單次自迴歸解碼(autoregressive decoding)流程中完成,不重啟、不斷連。
VLM 高解析度的算力困境:token 數平方的代價
視覺 Transformer 把影像切成 patch(小區塊),每個 patch 對應一個視覺 token(視覺詞元)。解析度提高一倍,token 數量變 4 倍,而自注意力(self-attention)的計算量與記憶體需求以 token 數的平方成長——解析度翻倍,算力暴增 16 倍。
這個困境的直接後果是,大部分 VLM 在部署時為了控制成本,只能餵入低解析度圖像,犧牲細粒度(fine-grained)的視覺細節,在辨識小文字、細微圖表或精細物件輪廓的任務上吃虧。「視覺聚焦(visual focusing)」方法試圖緩解這個困境:先看低解析度全圖判斷哪個區域需要細節,再選擇性放大取得高解析度證據。策略方向正確,但現有實作各有缺陷。
多輪解碼與文字座標:現有兩類方法各自的問題
現有視覺聚焦方法分為兩個流派。多輪解碼(multi-pass)方法先跑一次 VLM 決定要放大哪個區域,再把裁切後的高解析圖塊送入第二次(或更多次)完整解碼流程。每次放大就需要一次新的自迴歸解碼,不僅計算開銷大,每次啟動新解碼流程更會重置模型的隱藏狀態(hidden state),推理的連續性因此被打斷。
文字座標(text-grounded)方法訓練 VLM 把要聚焦的區域位置寫成文字座標(例如 [x, y, w, h]),讓座標和推理文字交錯出現。這個方法有兩個問題:其一是格式脆弱性(format brittleness)——一點格式偏差就讓輸出無法解析;其二是把連續的空間座標硬塞進離散詞彙表,等同對連續動作空間做量化(quantization),精度有損,且座標字串本身消耗額外的 token 預算。
FoveateR 的核心洞察是:這兩類方法模仿了視覺聚焦的結果,卻沒有實作其過程。人類眼球運動是有狀態的(stateful)、非語言的(non-linguistic),在單次持續的意識流中進行——而不是每次看新地方就重啟推理起點。
FoveateR 設計:<fov> token 觸發,MLP 預測連續邊界框
FoveateR 把解碼器視為在部分可觀測 MDP(Markov Decision Process,馬可夫決策過程)中運作的智能體(agent)。模型從低解析度圖像出發,進行標準的自迴歸文字生成。當需要局部細節時,模型輸出特殊 token <fov> 作為觸發信號——這時不是寫出文字座標,而是啟動一個輕量 MLP 策略網路 π_ϕ,直接從當前隱藏狀態 h_t 預測出一個連續的邊界框 [cx, cy, w, h]。
系統根據這個框從原始高解析度影像裁切對應區域,tokenize(詞元化)後以 <fov>…</fov> 結構注入同一條解碼流的上下文,讓後續生成步驟可直接在此視覺證據基礎上推理,無需重啟或重置隱藏狀態。代理人的「記憶」由 Transformer 的 KV-cache(鍵值快取)實作:每一步累積的所有 token——包括已注入的高解析視覺區塊——都保存在快取中,形成完整的推理連續性。
這個設計同時解決了多輪方法的「重置問題」和文字座標方法的「格式脆弱性問題」,也因為框座標是連續值(非離散文字),可以直接對框的面積做微分正則化——這在後續的 RL 訓練中至關重要。
兩段式訓練:冷啟動 SFT 接 GRPO 強化學習
預訓練 VLM 從未見過 <fov> token,訓練因此分兩階段進行。第一階段冷啟動監督微調(coldstart SFT):研究者從現有視覺推理資料集構建訓練樣本——讓預訓練 VLM 先生成推理文字,再用 grounding 模型把每句話定位到圖像的對應區域,組合成「先看哪裡 → 再推理什麼」的交錯序列,作為 teacher-forcing 的監督目標。損失函數結合語言模型損失(預測下一 token)和邊界框 L1 回歸損失。
第二階段 GRPO(Group Relative Policy Optimization,群組相對策略優化)強化學習:冷啟動給了模型基本的 <fov> 使用能力,但偽標籤(pseudo-labels)可能讓模型過度依賴教師模型的聚焦習慣。GRPO 讓模型依據實際答題表現的相對獎勵,自主調整何時放大、放大哪裡、放大多大。研究者還引入防「獎勵駭客(reward hacking)」的正則化項:當模型回答正確時,若聚焦框面積過大會額外懲罰——防止模型學到把整張圖都看完的取巧策略。這個正則化項能直接對連續框面積做梯度更新,是文字座標方法做不到的。
765K 訓練樣本、12 個 Benchmark 評估 Qwen2.5-VL 3B/7B
訓練資料共 765K 樣本:Visual CoT benchmark 438K、RefCOCO/+/g 321K、ScienceQA 6K。FoveateR 以 Qwen2.5-VL(3B 和 7B)為骨幹,冷啟動訓練 3 個 epoch,強化學習訓練 7 萬步,批次大小 16。評估在 Visual CoT benchmark 的 12 個資料集及 V* Bench 上進行,後者特別針對細粒度視覺感知(直接屬性辨識、GPT4V-hard、OCR 子集)。
一個
<fov>token + MLP 策略網路,把人眼中央凹「有狀態、非語言、單次進行」的注視機制移植進 VLM,在不重啟解碼的前提下按需取用高解析度細節。
| 類別 | 涵蓋資料集 |
|---|---|
| 文件/文字/圖表理解 | DocVQA, TextCaps, TextVQA, DUDE, SROIE, InfographicsVQA |
| 一般視覺問答 | Flickr30k, Visual7W |
| 關係推理 | GQA, OpenImages, VSR |
| 細粒度視覺理解 | CUB |