DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts

Bo Qian, Dahu Shi, Xing Wei

View Original ↗
AI 導讀 technology AI 重要性 4/5

DETR-ViP 藉由全域整合與關係蒸餾重塑視覺提示空間,解決語義模糊問題,在 COCO 零樣本偵測超越前代 4.4 mAP。

  • 全域提示整合模擬跨影像偵測,藉由擴增批次負樣本數量,促使模型建立統一的分類原型。
  • 視覺-文本關係蒸餾利用語言模型的相似度矩陣作為先驗,強制視覺提示產生高聚合度的語義邊界。
  • 選擇性融合透過閘控向量過濾不存在於影像中的類別提示,避免提示數量變動造成的效能崩潰。

視覺提示(Visual prompts)在開放詞彙物件偵測中,理應比文字提示具備更強的罕見類別泛化能力,但其表現卻長期落後。西安交大與海康機器人團隊提出的 DETR-ViP 架構,透過重塑視覺提示的語義空間,在 COCO 資料集上大幅超越現有 T-Rex2 模型達 +4.4 mAP,成功釋放視覺提示的物件偵測潛能。

視覺提示在 VIS-GDINO 基準模型中的效能瓶頸

過往的開放詞彙偵測(Open-vocabulary detection,指模型能偵測未在訓練集中預先定義的目標類別)高度依賴 CLIP 等大型視覺-語言模型。這類文字提示模型雖然具備強大的零樣本泛化能力,但在面對特定領域或難以用文字精確描述的物件時,表現往往不盡理想。視覺提示直接從影像特徵中擷取目標外觀作為參考,理論上更能適應罕見類別的辨識需求。然而,視覺提示的研究長期被視為訓練文字提示模型的副產物,導致其發展受限。

探究其根本原因,研究團隊以 Grounding DINO 為基礎,移除了原本的編碼器融合模組並插入視覺提示編碼器,打造出一個名為 VIS-GDINO 的基準模型。實測發現,該模型在 COCO 資料集上的平均精度(mAP)僅 21.1,在 LVIS 上更只有 17.2,遠低於使用文字提示的版本。團隊進一步對每個類別抽取 128 張影像生成視覺提示,並進行 t-SNE 降維分析。

視覺化結果指出一個致命缺陷:視覺提示缺乏全域的辨識力(Global discriminability)。來自同一個類別的不同實體,其視覺提示變異性極大;而不同類別的視覺提示在全域嵌入空間(Embedding space)中又嚴重糾纏。這種類內分散、類間模糊的語義特徵,使得模型在進行分類對比時經常發生誤判。

全域提示整合機制突破批次學習限制

為了解決特徵空間混亂的問題,DETR-ViP 引入的第一項關鍵機制是全域提示整合(Global Prompt Integration)。在類似 DETR 的模型 架構中,通常會使用焦點損失(Focal Loss)來優化信心分數。對於提示型偵測而言,這本質上是一個將提案特徵拉近正向提示、推遠負向提示的對比學習過程。豐富的負樣本是學習全域最佳特徵的必要條件。

檢視先前的 T-Rex2 模型,其訓練策略是「當前影像提示、當前影像偵測」,也就是只從目前的訓練影像中抽取真實邊界框(Ground Truth boxes)作為提示。這導致分類任務退化成極少數類別的 N-way 分類,模型根本無從學習全域的差異性。若要在訓練時額外抽樣其他影像來產生負面視覺提示,又會嚴重拖垮運算效率。

DETR-ViP 的作法是收集同一個批次(Batch)內所有影像的視覺提示,依照類別分組並計算平均值,生成「類別原型(Class prototype)」。這些原型會拼接起來,作為當前批次所有影像共用的分類器權重。這個設計不只增加了負樣本的數量,更隱含了跨影像提示的模擬效果,促使模型編碼出更具鑑別度的特徵,讓 LVIS 資料集上的表現直接飆升 +9.6 AP

視覺-文本提示關係蒸餾重塑特徵空間

儘管加入了全域整合,視覺提示本身容易受光影、視角、個體差異影響的本質並未改變。多模態模型通常會嘗試將視覺提示與對應的文字提示進行「對齊(Alignment)」,期望視覺特徵能繼承文字特徵那種「同類聚集、異類排斥」的良好結構。但完美對齊圖文空間在實務上已被證實是不可行的任務,間接限制了成效。

與其強制進行圖文的絕對對齊,DETR-ViP 選擇採用視覺-文本提示關係蒸餾(Visual-Textual Prompt Relation Distillation)。這種作法利用了語言模型(如 CLIP 或 BERT)中已經高度結構化的語義關聯性作為先驗知識。系統會計算文字提示之間的相似度矩陣,並要求視覺提示的相似度矩陣去模仿這個拓撲結構。

這種蒸餾損失函數(Loss function)不會把「女人(Women)」跟「人(Person)」這兩個在標註上不同、但語義相近的類別硬當成毫無關聯的負樣本互相排斥。相反地,它會引導視覺提示空間形成高密度的類內聚合,並拉開清晰的類間邊界。這項改進為 COCO 資料集帶來了額外 +5.9 mAP 的顯著提升。

選擇性融合策略解決提示數量不穩定的過擬合

在開放詞彙偵測中,將提示嵌入與影像特徵進行早期融合(Early fusion)是常見的強化手段。但研究團隊在套用 Grounding DINO 的完全融合架構後發現了一個嚴重的脆弱性:模型在測試時,如果一次給足 80 個 COCO 類別提示,模型能正常運作;但如果使用者只輸入「人」這 1 個提示,模型的偵測能力就會徹底崩潰。

產生這種現象的原因在於訓練與測試環境的落差。在全域提示整合的訓練過程中,模型習慣了同時存在大量類別的場景;當測試時提示數量銳減,完全融合機制會強行將無關的影像特徵與單一提示綁定,導致過擬合。一個強健的融合機制,表現應該獨立於使用者提供的提示數量之外。

DETR-ViP 因此提出了選擇性融合(Selective Fusion)策略。模型會先透過一個輔助分類分支,預測某個類別是否存在於目標影像中。只有當影像特徵與該提示的相似度超過設定閾值時,系統才會生成非零的閘控向量(Gating vector)允許融合進行;若類別不存在,則該提示的影響力會被降至負無窮大。這種先判斷後融合的機制,成功穩定了不同提示數量下的偵測表現。

COCO 與 LVIS 零樣本評估下的跨世代數據表現

在沒有看過目標資料集的零樣本(Zero-shot)設定下,DETR-ViP 展現了對於視覺提示偵測的統治力。在 Visual-G 評估協議下(針對每個類別從訓練集隨機抽樣影像生成平均視覺提示),使用 Swin-T 輕量骨幹網路的 DETR-ViP-T 在 COCO 上達到了 42.2 mAP,超越 T-Rex2-T 達 4.4 點。

在長尾分佈更加明顯的 LVIS 資料集上,優勢更為擴大。DETR-ViP-T 在罕見類別(APr)與常見類別(APc)上,分別贏過 T-Rex2 達 +5.2+9.4。面對類別分佈與訓練集差異極大的 ODinW 與 Roboflow 100 資料集,輕量版的 DETR-ViP-T 甚至直接超越了使用大型骨幹的 T-Rex2-L(分別領先 3.4 與 5.1 AP)。

為了量化證明視覺提示品質的提升,團隊提出了 IISR(類內-類間相似度比率)指標。IISR 數值越大,代表視覺提示的語義一致性越強。實驗數據顯示,從基準模型一路疊加全域整合與關係蒸餾機制,COCO 的 IISR 數值與 mAP 呈現完美的正相關成長,鐵證了 DETR-ViP 效能的飛躍,正是源自於對視覺提示底層語義結構的成功重塑。

將視覺提示從輔助過濾的附屬品,升格為具備全域辨識力的結構化特徵,DETR-ViP 為開放詞彙物件偵測指出了不依賴龐大圖文對齊的新演進方向。

Abstract

Visual prompted object detection enables interactive and flexible definition of target categories, thereby facilitating open-vocabulary detection. Since visual prompts are derived directly from image features, they often outperform text prompts in recognizing rare categories. Nevertheless, research on visual prompted detection has been largely overlooked, and it is typically treated as a byproduct of training text prompted detectors, which hinders its development. To fully unlock the potential of visual-prompted detection, we investigate the reasons why its performance is suboptimal and reveal that the underlying issue lies in the absence of global discriminability in visual prompts. Motivated by these observations, we propose DETR-ViP, a robust object detection framework that yields class-distinguishable visual prompts. On top of basic image-text contrastive learning, DETR-ViP incorporates global prompt integration and visual-textual prompt relation distillation to learn more discriminative prompt representations. In addition, DETR-ViP employs a selective fusion strategy that ensures stable and robust detection. Extensive experiments on COCO, LVIS, ODinW, and Roboflow100 demonstrate that DETR-ViP achieves substantially higher performance in visual prompt detection compared to other state-of-the-art counterparts. A series of ablation studies and analyses further validate the effectiveness of the proposed improvements and shed light on the underlying reasons for the enhanced detection capability of visual prompts.