CoAt-CBM 框架透過動態視覺查詢與概念對比優化，在 CIFAR-10 取得 98.51% 準確率並超越黑盒子模型。

AI 導讀 technology AI 重要性 4/5

傳統 CBM 高度依賴 CLIP 凍結特徵，容易產生細粒度對齊落差與結構先驗偏差。
導入可學習的動態視覺查詢，能自適應解耦影像特徵，精準對應特定文字概念。
概念對比優化 (CCO) 取代孤立的 BCE 演算法，強制模型利用負向概念凸顯正向特徵。

深度學習模型長期面臨內部運作難以理解的黑盒子爭議，而概念瓶頸模型（CBM）試圖透過預測中間概念來提供可解釋的決策路徑。然而，最新的 CoAt-CBM 框架透過概念級注意力機制與對比優化，在 CIFAR-10 資料集上達到了 98.51% 的分類準確率，甚至超越了缺乏解釋性的傳統黑盒子線性探測模型。這項研究成功在不犧牲神經網路效能的前提下，實現了極高的決策透明度。

CLIP 視覺特徵粗粒度限制概念瓶頸模型發展

大型視覺語言模型（如 CLIP）已被廣泛應用於建構概念瓶頸模型（CBM，一種先預測人類可理解的概念，再基於概念給出最終分類的模型）。現有方法多半直接利用 CLIP 產生的相似度分數來建構概念瓶頸。這個機制的運作邏輯看似直觀，卻存在顯著的預訓練偏差問題。

許多主流 CBM 高度依賴預訓練模型中凍結的全局視覺特徵，這會產生粗粒度的全局視覺資訊與細粒度文字概念之間的對齊落差。另一種解決方案是透過最佳傳輸（Optimal Transport, OT）演算法來分配影像的區塊特徵（patch tokens），但這種方式嚴重依賴視覺編碼器推導出的結構先驗。

一旦遭遇預訓練資料中未見過的影像特徵，模型難以捕捉細緻的空間結構，且最佳傳輸演算法會產生龐大的計算成本，限制了模型的規模化潛力。

BCE 損失函數忽略概念互斥性導致對齊偏移

優化神經網路的概念預測能力時，傳統架構大多依賴二元交叉熵（BCE）損失函數。BCE 演算法的基本假設是每個目標概念都是獨立的事件，模型在計算損失時，只專注於單一概念的預測誤差。這種孤立計算的設計，完全忽略了單一影像中不同特徵之間的互斥性或相互關係。

獨立運算的假設，限制了模型利用負向（非類別相關）概念作為對照組的潛力。一個優秀的視覺分類器，應該要知道如何透過排除無關的干擾特徵，來凸顯出正向（類別相關）的視覺概念。

忽視這些負向參照物，會大幅削弱模型在複雜影像內辨識關鍵特徵的敏銳度，最終造成影像與文字概念的對齊效果低於預期。

導入動態視覺查詢實現概念級細粒度特徵解耦

為了解決粗粒度特徵帶來的對齊誤差，研究團隊提出了概念級注意力機制（Concept-wise Attention）。這個訓練模組首先提取 CLIP 視覺編碼器中的全局與區塊級特徵，組合成一個聯合特徵矩陣。接著，系統為每個概念分配一個可學習的視覺查詢（visual queries，作為高階概念語義標記，預設維度為 2048）。

這些視覺查詢能根據輸入的影像內容，動態調整注意力權重。它們透過縮放點積（scaled dot-product）與所有視覺特徵互動，計算出關聯分數並透過 Softmax 轉換為注意力權重。這套機制使模型能自動聚焦於最具鑑別力的局部特徵，進而將特定概念對應的視覺表徵自然地解耦（disentangling）出來，有效降低預訓練帶來的剛性偏差。

此外，為了確保概念庫（Concept Bank）的語義準確性，團隊並未讓語言模型憑空生成特徵。他們先收集特定領域的線上知識庫與專業網站描述，建立涵蓋人類認知特徵的「類別知識庫」，再讓 GPT-3.5-Turbo 基於這些可靠文本生成概念，大幅減少了機器幻覺與語義模糊的問題。

概念對比優化 CCO 顯著拉升正向概念關聯分數

為打破 BCE 損失函數的孤立計算限制，CoAt-CBM 框架導入了全新的概念對比優化（Concept Contrastive Optimization, CCO）策略。這項機制在訓練階段，會將模型的概念分數向量拆分為正向集合（與該影像類別相關的概念）與負向集合（與影像完全無關的概念）。

透過對比學習的數值約束條件，CCO 嚴格要求模型在整體的評分分佈中，必須給予正向概念顯著高於負向概念的分數。神經網路不再將每個文字特徵分開處理，而是被迫將負向概念當作背景雜訊的參考基準，藉此強化區分正向特徵的能力。

針對單一影像必定具備多重正向概念的特性，研究團隊套用了多正向對比方法（multi-positive contrastive approach），確保神經網路對影像的整體概念判斷維持高度一致性。

CIFAR-10 達 98.51% 準確率並超越黑盒子探測

在涵蓋 CIFAR-10、CUB-200 等 10 個標準影像分類資料集的廣泛測試中，CoAt-CBM 展現了突破性的分類效能。在全監督環境下，CIFAR-10、CIFAR-100 與 CUB-200 分別取得了 98.51%、89.19% 與 89.13% 的卓越準確率。對比先前的 SOTA 基準 HybridCBM，這是一次跨越性的效能提升。

最令人矚目的是，這套具備高度可解釋性的模型，其預測準確度全面超過了凍結視覺編碼器並直接訓練的 Linear Probe 與 LoRA-LP 等黑盒子模型。在少量樣本（Few-shot）測試中，無論是抽取 1、2 還是 16 張影像，CoAt-CBM 同樣穩定領先現有架構。

在可解釋性指標上，採用 GPT-4o 評估的「概念鑑別關聯度（CDR）」在 CIFAR-10 資料集達到 89.64%，在 SKIN-40 資料集亦有 77.16% 的水準。此研究證明了增強細粒度對齊與概念對比，能讓機器視覺同時兼顧決策透明度與頂尖預測水準。

捨棄孤立的二元評分並導入動態視覺查詢與對比約束，證明了可解釋概念模型能在不犧牲準確率的前提下超越傳統黑盒子架構。

Abstract

Recently impressive performance has been achieved in Concept Bottleneck Models (CBM) by utilizing the image-text alignment learned by a large pre-trained vision-language model (i.e. CLIP). However, there exist two key limitations in concept modeling. Existing methods often suffer from pre-training biases, manifested as granularity misalignment or reliance on structural priors. Moreover, fine-tuning with Binary Cross-Entropy (BCE) loss treats each concept independently, which ignores mutual exclusivity among concepts, leading to suboptimal alignment. To address these limitations, we propose Concept-wise Attention for Fine-grained Concept Bottleneck Models (CoAt-CBM), a novel framework that achieves adaptive fine-grained image-concept alignment and high interpretability. Specifically, CoAt-CBM employs learnable concept-wise visual queries to adaptively obtain fine-grained concept-wise visual embeddings, which are then used to produce a concept score vector. Then, a novel concept contrastive optimization guides the model to handle the relative importance of the concept scores, enabling concept predictions to faithfully reflect the image content and improved alignment. Extensive experiments demonstrate that CoAt-CBM consistently outperforms state-of-the-art methods. The codes will be available upon acceptance.

Concept-wise Attention for Fine-grained Concept Bottleneck Models

CLIP 視覺特徵粗粒度限制概念瓶頸模型發展

BCE 損失函數忽略概念互斥性導致對齊偏移

導入動態視覺查詢實現概念級細粒度特徵解耦

概念對比優化 CCO 顯著拉升正向概念關聯分數

CIFAR-10 達 98.51% 準確率並超越黑盒子探測

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

無痛修正擴散模型的 SNR 偏差，小波域動態差分校正使 FID 降低 47.1%。

免除 3D 重建，TokenLight 依靠物理屬性標記即能在 2D 照片中精準生成複雜遮擋與玻璃折射光影。