Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow

Chengxin Liu, Wonseok Choi, Chenshuang Zhang, Tae-Hyun Oh

View Original ↗
AI 導讀 technology AI 重要性 4/5

KAIST 團隊證實遮蔽 VLM 高達 90% 的無關視覺雜訊能提升感知能力,並提出免訓練的推論期遮罩技術。

  • VLM 的注意力常分散至無關背景,引入推論期動態遮罩可阻斷雜訊,提升問答與定位準確率。
  • 利用 Token 在各網路層的「注意力動態熵值」篩選關鍵區域,準確度優於單純測量靜態注意力。
  • AIF 技術無須重新訓練模型,在 Qwen2.5-VL 視覺定位測試中提升 2.3 分,並有效抑制幻覺現象。

視覺語言模型(VLM)雖然能精準「看到」圖片中的關鍵區域,卻不一定能給出正確答案。近期來自 KAIST 與 POSTECH 的研究指出,當模型遮蔽高達 90% 的無關視覺 token 時,效能不僅沒有下降,反而因為排除了雜訊干擾,在多項視覺問答與光學字元辨識任務中表現更好。團隊提出無須重新訓練的「適應性資訊流(AIF)」技術,只需增加毫秒級的推論步驟,就能大幅改善 LLaVA-1.5 與 Qwen2.5-VL 的幻覺與感知能力。

視覺與感知的錯位:高達 50% 效能衰退的注意力分散問題

多模態模型在視覺辨識、文件解析與物件定位上展現出強大的能力,但研究人員發現這些模型普遍存在「看見卻無法正確感知」的錯位現象。在標準的自迴歸解碼過程中,指示文字(instruction tokens)的交叉注意力往往會過度分散到不相關的背景視覺 token 上。這種空間上極度分散的注意力模式,會將充滿雜訊的視覺資訊引入文字解碼路徑,進而干擾語言模型(LLM)的邏輯推演,導致最終輸出錯誤的答案。

為了量化這種現象,研究團隊在多個資料集上進行了一項極端的遮蔽測試。實驗發現,若針對注意力權重最低的無關視覺 token 進行遮蔽,即使遮蔽比例高達 90%,模型的預測效能依然保持穩定,完全不受影響。相反地,若是強制切斷文字與「高注意力權重」視覺 token 之間的資訊流,模型表現將遭遇斷崖式下跌。以光學字元辨識資料集 TextVQA 為例,僅僅遮蔽 10% 的關鍵視覺 token,就會造成超過 50% 的相對效能衰退。

這些數據揭示了一個重要事實:在 VLM 龐大的視覺輸入中,只有極小部分的 token 對最終預測具有決定性影響。多餘的背景 token 不僅無法提供有用的上下文,反而會成為稀釋文字推理能力的罪魁禍首。直接在推論階段(inference time)調節並阻斷這些低價值資訊的傳遞,成為了提升模型細緻感知能力的新路徑。

追蹤 Token 動態:以「熵」測量 KAIST 團隊的視覺特徵重要性

既然並非所有視覺 token 都具有同等價值,如何精準挑選出需要保留的關鍵區域便成為核心挑戰。傳統上依賴絕對注意力數值的方法往往不夠穩定,因為注意力分布會隨著 Transformer 網路的深度不斷變動。研究團隊轉而觀察視覺 token 在解碼過程中的「動態變化(token dynamics)」,紀錄每一個視覺 token 在 LLM 不同網路層中對文字 token 產生的最大注意力數值,並藉此描繪出特徵的活化軌跡。

分析結果顯示,對應於實際物件區域的重要視覺 token,通常會在特定的網路層中被高度活化,展現出明確且集中的模式;而無關緊要的背景區域,則會在所有網路層中呈現極不規則且隨機的跳動狀態。基於這項觀察,團隊引入了以「熵(Entropy)」為基礎的數學測量標準。當一個視覺 token 在各層之間的注意力數值分布越平均、隨機性越高,其計算出的熵值就會越大,這也意味著該 token 大機率屬於無用的背景雜訊,理應被優先剔除。

量化分析進一步證實了這項設計的優越性。在 RefCOCO 資料集針對 Qwen2.5-VL-7B 的測試中,團隊比較了單純依賴「高注意力數值」與採用「熵值」兩種篩選標準的物件召回率(Recall)。結果顯示,僅有 28.8% 的小型物件 token 落入高注意力區間,顯示傳統注意力機制仍存在盲區;而改用熵值測量後,各尺寸物件的召回率皆顯著提升,證明動態熵值是比靜態注意力更可靠的重要度指標。

操控推論期因果遮罩(Causal Mask):不改 LLaVA-1.5 權重的優化路徑

確認了每個視覺 token 的重要性後,下一步是決定最佳的遮蔽比例。團隊提出了一種自動化的最佳閾值尋找機制,由於遮蔽無關 token 的終極目標是讓模型的注意力重新「集中」到關鍵物件上,這意味著整體視覺到文字的注意力分布將變得更為集中、隨機性下降。系統會從 0.1 到 0.9(間隔 0.1)的候選遮蔽率中進行掃描,計算不同比例下的整體注意力分布熵值,並挑選出與原始發散狀態差異最大的比例作為最終遮蔽設定。

實際執行資訊流調控的載體,則是語言模型內建的因果遮罩(Causal Mask)。在標準的由左至右解碼框架中,視覺 token 原本只能單向看見先前的序列。團隊在此機制上進行了動態調整:一旦確認了高熵值的無關視覺 token,系統便會在因果遮罩矩陣中,強制將這些視覺 token 與文字 token 之間的注意力連結設為負無窮大($-\infty$)。如此一來,文字序列在生成答案時,便完全無法讀取這些被封鎖的背景雜訊。

這套名為「適應性資訊流(AIF)」的架構具備極高的實用價值,因為它完全不需要動用運算資源重新訓練模型,也沒有更動神經網路架構或位置編碼。整個過程僅在原始流程外新增一次初步解碼步驟來獲取注意力統計數據並生成遮罩,隨後的生成過程與傳統推論完全相同。在資源開銷上,生成動態遮罩僅需耗費幾毫秒的計算時間,幾乎等同於多生成一個 token 的輕量級代價。

RefCOCO 與計數數據集實測:Qwen2.5-VL 獲 2.3 分提升

團隊將 AIF 技術整合進具代表性的開源模型 LLaVA-1.5Qwen2.5-VL 中,並在多樣化的基準測試中進行了全面評估。在涵蓋邏輯推理與科學題目的常規視覺問答資料集(如 V*、RealWorldQA 與 MMStar)中,AIF 顯著拉抬了雙模型的正確率,證明切斷雜訊確實能強化模型對問題語境的對齊能力。而在高度要求微小細節感知的光學字元辨識任務(TextVQA、SeedBench2-Plus)中,效能同樣獲得穩定提升。

在極度考驗空間精準度的視覺定位(Visual Grounding)任務上,成效更為突出。於 RefCOCO 資料集測試中,導入 AIF 的 Qwen2.5-VL 取得了平均 2.3 分的效能增長,甚至超越了專為視覺定位設計的特化模型 Grounding-DINO。此外,在極易受到背景物件干擾的數量計算資料集(CountBench)中,新方法也比基礎模型提升了 2-3% 的準確率,證實了過濾背景對於複雜計數任務的必要性。

針對業界高度關注的物件幻覺(Hallucination)問題,AIF 同樣繳出了亮眼的成績單。在基於 COCO 採樣的物件幻覺測試中,調控資訊流後的模型因為強迫將注意力聚焦於與問題真正相關的區域,有效減少了無中生有的文字輸出。與依賴影像裁切的免訓練方法 ViCrop,以及修改注意力架構的 CCA 相比,AIF 在多項測試中皆取得領先,展現出純推論期調控的龐大潛力。

捨棄未來感知遮罩(Future-Aware Mask):消融實驗揭示的注意力陷阱

為了驗證 AIF 遮罩策略的無可替代性,團隊進行了多組消融實驗。若在同等遮蔽率下,改為遮蔽「低熵值(即重要)」的視覺 token,模型效能立刻出現斷崖式崩盤;而隨機遮蔽策略的表現也明顯劣於基於熵值的 AIF,這直接證實了追蹤動態活化軌跡來篩選 token 的科學有效性。

學界曾提出另一種調控資訊流的思維:放寬因果遮罩的限制,採用「未來感知遮罩(Future-Aware Causal Mask)」,例如允許所有視覺 token 互相交流(vis2vis),或允許視覺 token 預先看見後方指示文字(vis2text)。然而實測數據顯示,這兩類雙向開放的遮罩不僅沒有提升表現,反而導致效能衰退。研究團隊推測,過度開放的注意力矩陣會徹底破壞原本預訓練時建立的分布平衡,帶來負面衝擊;相較之下,AIF 僅「做減法」,單向切斷文字到無關影像的干擾,成為了更穩定且高性價比的技術解方。

與其無限制地擴大模型視覺參數,精準阻斷文字與無關背景影像的注意力連結,才是解決多模態模型幻覺與感知錯位的低成本捷徑。

Abstract

Vision-Language Models (VLMs) have demonstrated strong capability in a wide range of tasks such as visual recognition, document parsing, and visual grounding. Nevertheless, recent work shows that while VLMs often manage to capture the correct image region corresponding to the question, they do not necessarily produce the correct answers. In this work, we demonstrate that this misalignment could be attributed to suboptimal information flow within VLMs, where text tokens distribute too much attention to irrelevant visual tokens, leading to incorrect answers. Based on the observation, we show that modulating the information flow during inference can improve the perception capability of VLMs. The idea is that text tokens should only be associated with important visual tokens during decoding, eliminating the interference of irrelevant regions. To achieve this, we propose a token dynamics-based method to determine the importance of visual tokens, where visual tokens that exhibit distinct activation patterns during different decoding stages are viewed as important. We apply our approach to representative open-source VLMs and evaluate on various datasets, including visual question answering, visual grounding and counting, optical character recognition, and object hallucination. The results show that our approach significantly improves the performance of baselines. Project page: https://cxliu0.github.io/AIF/.