Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers

Nina Żukowska, Wolfgang Stammer, Bernt Schiele, Jonas Fischer

View Original ↗
AI 導讀 technology AI 重要性 4/5

Vi-CD 技術首度在視覺變換器實現邊緣級別電路發現,成功將 CLIP 模型的排版攻擊率壓至 2.8%。

  • Vi-CD 在 ViT-B 找出極度稀疏的計算電路,僅需不到 10% 的邊緣即可維持原始分類準確率。
  • 團隊結合修補與遮罩技術產生損壞圖像對,成功克服視覺模型缺乏離散文字標記的解釋難題。
  • 藉由機制引導關閉特定電路,能將大型文字排版攻擊的成功率從 39.1% 大幅縮減至 2.8%。

研究團隊提出 Vi-CD 技術,首次在視覺變換器中實現邊緣級別的計算電路發現。數據顯示,它找出關鍵路徑的稀疏度比現有方法高 10 倍,且介入電路能將 CLIP 模型的排版攻擊成功率從 39.1% 降至 2.8%,讓模型內部機制走向實用防禦。

從神經元到計算圖:Vi-CD 突破變換器限制

機制可解釋性(Mechanistic Interpretability)旨在逆向工程神經網路的內部運算。在 LLMs(大型語言模型)中,研究者已習慣將模型視為有向圖,尋找基於邊緣(edge-based)的電路;然而,過去針對視覺模型的解讀多半停留在節點層級,例如關注特定的神經元或特徵通道。這種神經元級別的分析能告訴我們哪些資訊被編碼,卻無法解釋資訊是如何在複雜的網路架構中傳遞。

為了填補這項空白,研究團隊提出了 Vi-CD(Visual Circuit Discovery)。這是一套專為視覺變換器(Vision Transformers)設計的自動化視覺電路發現方法。它透過順序啟動修補技術,成功從 ViT-B 與 OpenCLIP 等大型基礎模型中,萃取出高度稀疏且具備忠實性(faithfulness)的子圖。這意味著我們終於能精確描繪出視覺模型處理特定任務的資訊流動軌跡。

稀疏度提升 10 倍:ViT-B 模型的效能驗證

電路的忠實性是指,如果限制模型只依賴該局部電路運算,其原始任務效能是否能維持。在針對 ImageNet 影像分類任務的測試中,Vi-CD 展現了驚人的效率。相較於從語言領域移植過來的基於梯度的近似方法(如 EAPEAP-IG),Vi-CD 發現的電路不僅能完美還原分類準確率,其保留的網路邊緣數量更是 EAP-IG 的十分之一以下。

在 ViT-B 測試中,Vi-CD 僅保留了不到 10% 的網路邊緣,就幾乎達成完美的效能保留。這種極致的稀疏化證明,特定類別的影像識別工作實際上只仰賴神經網路中非常集中的一小部分運算路徑,而非分散在整個網路之中。此外,團隊在分析跨類別電路時發現,視覺上或語意上相近的類別(例如兩種不同的柯基犬),其電路重疊率遠高於不相關的武器類別,顯示模型會重複使用相似的特徵路徑。

處理圖像特徵解法:前景遮罩與啟動修補技術

視覺模型與語言模型有一個根本上的差異:視覺變換器處理的是空間分佈的圖像區塊,而非離散的文字標記。這導致在建構包含正確特徵的乾淨輸入與移除特徵的損壞(corrupted)輸入時面臨挑戰。如果只是隨機破壞圖像,可能會引入分佈外的雜訊,進而干擾實驗結果。

Vi-CD 團隊採用了巧妙的策略來解決資料集問題:他們利用 ForAug 資料集,將目標類別的前景物件進行分割並透過修補(inpainting)填補背景。這樣產生的損壞圖像移除了目標物件的關鍵特徵,但保留了整體的背景統計數據與低階結構。系統接著會將電路外邊緣的運算替換成損壞圖像的數值,若模型的分類能力沒有顯著下降,就代表留下來的邊緣才是該分類任務真正的核心機制。

防禦排版攻擊:CLIP 攻擊成功率降至 2.8%

找出運算電路不僅是為了滿足科學好奇心,更具備實戰上的資安價值。研究團隊將 Vi-CD 應用於防禦 CLIP 模型的排版攻擊(Typographic attacks)——這是一種在圖像上加上文字,誘使模型給出錯誤文字標籤的對抗手段。團隊收集了帶有攻擊文字的圖片作為乾淨輸入,並將未加文字的原圖作為損壞輸入,藉此定位模型處理攻擊文字的特定電路。

令人振奮的是,只需針對這些電路進行機制引導(即定向消除特定神經元的啟動值),就能在幾乎不影響原始零樣本準確率的情況下化解攻擊。在大型文字覆蓋的測試中,Top-1 攻擊成功率從原先的 39.1% 暴跌至 2.8%;在小型文字攻擊中也從 39.4% 降至 1.6%。這項技術同樣在 RoCOCO 危險基準測試中發揮作用,將模型受操縱的機率減半,證實這些邊緣級別電路具備高度的除錯與操作潛力。

視覺模型黑盒子正逐步解開,掌握邊緣級別的電路資訊流動,將是未來 AI 除錯與防禦對抗攻擊的關鍵。

Abstract

Transparency of neural networks' internal reasoning is at the heart of interpretability research, adding to trust, safety, and understanding of these models. The field of mechanistic interpretability has recently focused on studying task-specific computational graphs, defined by connections (edges) between model components. Such edge-based circuits have been defined in the context of large language models, yet vision-based approaches so far only consider neuron-based circuits. These tell which information is encoded, but not how it is routed through the complex wiring of a neural network. In this work, we investigate whether useful mechanistic circuits can be identified through computational graphs in vision transformers. We propose an effective method for Automatic Visual Circuit Discovery (Vi-CD) that recovers class-specific circuits for classification, identifies circuits underlying typographic attacks in CLIP, and discovers circuits that lend themselves for steering to correct harmful model behavior. Overall, we find that insightful and actionable edge-based circuits can be recovered from vision transformers, adding transparency to the internal computations of these models.