H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

Jianghong Huang, Luping Ji, Weiwei Duan, Mao Ye

View Original ↗
AI 導讀 technology AI 重要性 4/5

僅用4張正常樣本,H2VLR 透過異構超圖推論在 MVTec 創下 97.96% 準確率,打破視覺語言模型局部比對限制。

  • H2VLR 採用異構超圖模型,解決現有 VLM 異常檢測缺乏全局結構一致性的問題。
  • 4-shot 設定下 MVTec 檢測率達 97.96%,超越使用全量數據訓練的基準模型。
  • 凍結 OpenCLIP 骨幹僅增加 2.3M 參數,即維持 33 IPS 實用工業部署速度。

僅需 4 張正常樣本,H2VLR 框架就能在 MVTec 工業數據集達到 97.96% 的異常檢測準確率,甚至超越使用全量數據訓練的模型。傳統視覺語言模型在少樣本異常檢測中,往往依賴單一的圖像區塊與文字特徵比對,容易漏判具備結構性關聯的微小瑕疵。中國電子科技大學團隊提出的異構超圖推論架構,打破了點對點匹配的局限,將視覺區塊與語義概念統整到高階關聯網絡中。

突破 CLIP 點對點比對的異構超圖推論框架

少樣本異常檢測要求模型在極度缺乏瑕疵樣本的情況下,僅靠少數正常樣本找出異常。近年來,研究人員大量引入 CLIP 等 VLM(視覺語言模型:結合圖像與文字預訓練的 AI 模型)來輔助判斷。現有主流方法如 PromptADAnomalyCLIP,大多依賴提示詞(Prompt)或圖像區塊(Patch)層級的相似度匹配,將影像特徵直接與文字描述對比。

這種作法本質上是將每個圖像區塊視為獨立個體,忽略了跨區塊之間的結構依賴性與全局上下文一致性。當瑕疵表現為協調性偏差或空間結構異常時,單純計算局部相似度很容易產生漏判。為了突破此瓶頸,研究團隊提出 H2VLR(異構超圖視覺語言推論)框架,將問題轉化為高階關聯推論任務。

該框架導入了 Hypergraph(超圖:一條邊可同時連接多個節點的擴充圖結構),將視覺區塊與語義概念視為異構節點。透過這種設計,系統不再只是計算「這塊影像有多像瑕疵」,而是評估「這塊影像及其關聯區域,在語義與空間結構上是否合理」,藉此捕捉極端資料匱乏下的全局結構一致性。

DSI 動態語義推導取代靜態文本提示詞

在工業檢測情境中,通用的視覺與語言先驗知識往往表現不足,靜態的文本模板難以精準捕捉特定類別的外觀變異與異常模式。H2VLR 設計了 DSI(動態語義推導)模組,將文本語義與參考影像的視覺特徵進行綁定,藉此生成適應當前任務的文本表示。

具體運作上,系統首先提取參考樣本的全局特徵與局部結構資訊。這些全局特徵不會直接用於相似度匹配,而是作為引導訊號,透過可學習的映射器轉換為上下文特徵,並注入到預先定義的提示詞模板中。最終,模型會聚合出「正常」與「異常」的語義中心,構成專屬的語義資料庫。

為了確保特徵空間的穩定性,模組還加入了邊界對齊機制。該機制強制正常的視覺微特徵必須緊靠正常的語義中心,同時與異常流形保持足夠的距離。消融實驗顯示,單獨加入 DSI 模組就能讓整體影像級檢測準確率提升 2.46%

結合 8 個拓撲節點與雙層架構的高階推論

建立了動態語義資料庫後,H2VLR 進入跨模態超圖的構建階段。該網路採用雙重引導策略建立超邊:第一種是保留結構的超邊,利用餘弦相似度將每個視覺區塊與空間中最相近的節點連結;第二種則是語義引導的超邊,將視覺區塊與對應的文本提示詞關聯起來。

實驗數據顯示,超圖的拓撲粒度與推論深度對效能影響顯著。當相鄰節點數量設定為 K=8 且超圖卷積層數為 L=2 時,模型能達到語義覆蓋率與特徵鑑別度的最佳平衡,整體峰值效能達到 92.25%。透過這兩層網路的訊息傳遞,局部區塊的特徵會不斷與周圍結構及語義一致的區域進行交互修正。

最終,異常區域不再僅僅是因為「與正常提示詞相似度低」而被挑出,而是因為它們無法被其超圖鄰居合理地解釋,從而突顯出結構層面的違和感。這種高階推論產生了針對結構感知的異常映射圖,並作為殘差修正直接疊加到底層的相似度預測上。

4樣本測試達 97.96% 擊敗全量數據訓練基準

研究團隊在 5 個工業數據集與 3 個醫療影像數據集上進行了全面評估。在最嚴苛的 4-shot(僅用 4 張正常樣本訓練)條件下,H2VLRMVTec 工業數據集取得了 97.96% 的檢測準確率,在 BUSI 乳腺超音波數據集也達到 93.38%

在像素級的精準定位上,H2VLR 同樣表現出色,在 BrainMRI 數據集中獲得 97.32% 的最高分。特別值得一提的是,在極端少樣本測試中,H2VLR 僅使用 1 張樣本的效能,就超越了使用 8 張樣本的 RegAD 以及使用 16 張樣本的 AA-CLIP

若將 4 張樣本的 H2VLR 與使用完整數據集訓練的模型相比,其在 MVTec 上的表現甚至微幅勝過了具備全樣本優勢的 OneNIP(97.93%)。整體而言,該框架在工業應用數據集上的平均表現明顯優於醫療數據集,展現其跨場景的泛化潛力。

附加 2.3M 參數達成 33 IPS 實時推論速度

導入超圖與高階推論往往會讓人擔憂運算成本的暴增,但 H2VLR 在設計上維持了輕量化的架構。透過凍結 OpenCLIP (ViT-B/16+) 作為骨幹網路,該框架僅新增了 2.3M 的可學習參數。

相比之下,同領域的 IIPAD 模型總參數高達 436.5M,而 H2VLR 總規模維持在 210.7M。在推論速度方面,雖然不及 PromptAD 的 208 IPS 極速表現,但 H2VLR 仍能達到 33 IPS(每秒處理影像數),遠勝於採用圖形聚合方法的 KAG-prompt(僅 7 IPS)。

這意味著 H2VLR 具備足以應付真實世界自動化生產線的實時檢測能力。以相對極低的參數增量換取超越全量數據模型的檢測精準度,證實了結合高階推論的視覺語言模型在極限佈署上的高度可行性。

將異常檢測從「局部特徵比對」升級為「全局結構推論」,異構超圖架構為視覺語言模型在極端資料匱乏場景指明了一條高效的新路徑。

補充數據視覺化

各類模型參數與實時推論效能對比
模型總參數量 (M)推論速度 (IPS)
H2VLR (本作)210.733
IIPAD436.5-
PromptAD208.5208
KAG-prompt-7

Abstract

As a classic vision task, anomaly detection has been widely applied in industrial inspection and medical imaging. In this task, data scarcity is often a frequently-faced issue. To solve it, the few-shot anomaly detection (FSAD) scheme is attracting increasing attention. In recent years, beyond traditional visual paradigm, Vision-Language Model (VLM) has been extensively explored to boost this field. However, in currently-existing VLM-based FSAD schemes, almost all perform anomaly inference only by pairwise feature matching, ignoring structural dependencies and global consistency. To further redound to FSAD via VLM, we propose a Heterogeneous Hypergraph Vision-Language Reasoning (H2VLR) framework. It reformulates the FSAD as a high-order inference problem of visual-semantic relations, by jointly modeling visual regions and semantic concepts in a unified hypergraph. Experimental comparisons verify the effectiveness and advantages of H2VLR. It could often achieve state-of-the-art (SOTA) performance on representative industrial and medical benchmarks. Our code will be released upon acceptance.