DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts
DETR-ViP 藉由全域整合與關係蒸餾重塑視覺提示空間,解決語義模糊問題,在 COCO 零樣本偵測超越前代 4.4 mAP。
- 全域提示整合模擬跨影像偵測,藉由擴增批次負樣本數量,促使模型建立統一的分類原型。
- 視覺-文本關係蒸餾利用語言模型的相似度矩陣作為先驗,強制視覺提示產生高聚合度的語義邊界。
- 選擇性融合透過閘控向量過濾不存在於影像中的類別提示,避免提示數量變動造成的效能崩潰。
視覺提示(Visual prompts)在開放詞彙物件偵測中,理應比文字提示具備更強的罕見類別泛化能力,但其表現卻長期落後。西安交大與海康機器人團隊提出的 DETR-ViP 架構,透過重塑視覺提示的語義空間,在 COCO 資料集上大幅超越現有 T-Rex2 模型達 +4.4 mAP,成功釋放視覺提示的物件偵測潛能。
視覺提示在 VIS-GDINO 基準模型中的效能瓶頸
過往的開放詞彙偵測(Open-vocabulary detection,指模型能偵測未在訓練集中預先定義的目標類別)高度依賴 CLIP 等大型視覺-語言模型。這類文字提示模型雖然具備強大的零樣本泛化能力,但在面對特定領域或難以用文字精確描述的物件時,表現往往不盡理想。視覺提示直接從影像特徵中擷取目標外觀作為參考,理論上更能適應罕見類別的辨識需求。然而,視覺提示的研究長期被視為訓練文字提示模型的副產物,導致其發展受限。
探究其根本原因,研究團隊以 Grounding DINO 為基礎,移除了原本的編碼器融合模組並插入視覺提示編碼器,打造出一個名為 VIS-GDINO 的基準模型。實測發現,該模型在 COCO 資料集上的平均精度(mAP)僅 21.1,在 LVIS 上更只有 17.2,遠低於使用文字提示的版本。團隊進一步對每個類別抽取 128 張影像生成視覺提示,並進行 t-SNE 降維分析。
視覺化結果指出一個致命缺陷:視覺提示缺乏全域的辨識力(Global discriminability)。來自同一個類別的不同實體,其視覺提示變異性極大;而不同類別的視覺提示在全域嵌入空間(Embedding space)中又嚴重糾纏。這種類內分散、類間模糊的語義特徵,使得模型在進行分類對比時經常發生誤判。
全域提示整合機制突破批次學習限制
為了解決特徵空間混亂的問題,DETR-ViP 引入的第一項關鍵機制是全域提示整合(Global Prompt Integration)。在類似 DETR 的模型 架構中,通常會使用焦點損失(Focal Loss)來優化信心分數。對於提示型偵測而言,這本質上是一個將提案特徵拉近正向提示、推遠負向提示的對比學習過程。豐富的負樣本是學習全域最佳特徵的必要條件。
檢視先前的 T-Rex2 模型,其訓練策略是「當前影像提示、當前影像偵測」,也就是只從目前的訓練影像中抽取真實邊界框(Ground Truth boxes)作為提示。這導致分類任務退化成極少數類別的 N-way 分類,模型根本無從學習全域的差異性。若要在訓練時額外抽樣其他影像來產生負面視覺提示,又會嚴重拖垮運算效率。
DETR-ViP 的作法是收集同一個批次(Batch)內所有影像的視覺提示,依照類別分組並計算平均值,生成「類別原型(Class prototype)」。這些原型會拼接起來,作為當前批次所有影像共用的分類器權重。這個設計不只增加了負樣本的數量,更隱含了跨影像提示的模擬效果,促使模型編碼出更具鑑別度的特徵,讓 LVIS 資料集上的表現直接飆升 +9.6 AP。
視覺-文本提示關係蒸餾重塑特徵空間
儘管加入了全域整合,視覺提示本身容易受光影、視角、個體差異影響的本質並未改變。多模態模型通常會嘗試將視覺提示與對應的文字提示進行「對齊(Alignment)」,期望視覺特徵能繼承文字特徵那種「同類聚集、異類排斥」的良好結構。但完美對齊圖文空間在實務上已被證實是不可行的任務,間接限制了成效。
與其強制進行圖文的絕對對齊,DETR-ViP 選擇採用視覺-文本提示關係蒸餾(Visual-Textual Prompt Relation Distillation)。這種作法利用了語言模型(如 CLIP 或 BERT)中已經高度結構化的語義關聯性作為先驗知識。系統會計算文字提示之間的相似度矩陣,並要求視覺提示的相似度矩陣去模仿這個拓撲結構。
這種蒸餾損失函數(Loss function)不會把「女人(Women)」跟「人(Person)」這兩個在標註上不同、但語義相近的類別硬當成毫無關聯的負樣本互相排斥。相反地,它會引導視覺提示空間形成高密度的類內聚合,並拉開清晰的類間邊界。這項改進為 COCO 資料集帶來了額外 +5.9 mAP 的顯著提升。
選擇性融合策略解決提示數量不穩定的過擬合
在開放詞彙偵測中,將提示嵌入與影像特徵進行早期融合(Early fusion)是常見的強化手段。但研究團隊在套用 Grounding DINO 的完全融合架構後發現了一個嚴重的脆弱性:模型在測試時,如果一次給足 80 個 COCO 類別提示,模型能正常運作;但如果使用者只輸入「人」這 1 個提示,模型的偵測能力就會徹底崩潰。
產生這種現象的原因在於訓練與測試環境的落差。在全域提示整合的訓練過程中,模型習慣了同時存在大量類別的場景;當測試時提示數量銳減,完全融合機制會強行將無關的影像特徵與單一提示綁定,導致過擬合。一個強健的融合機制,表現應該獨立於使用者提供的提示數量之外。
DETR-ViP 因此提出了選擇性融合(Selective Fusion)策略。模型會先透過一個輔助分類分支,預測某個類別是否存在於目標影像中。只有當影像特徵與該提示的相似度超過設定閾值時,系統才會生成非零的閘控向量(Gating vector)允許融合進行;若類別不存在,則該提示的影響力會被降至負無窮大。這種先判斷後融合的機制,成功穩定了不同提示數量下的偵測表現。
COCO 與 LVIS 零樣本評估下的跨世代數據表現
在沒有看過目標資料集的零樣本(Zero-shot)設定下,DETR-ViP 展現了對於視覺提示偵測的統治力。在 Visual-G 評估協議下(針對每個類別從訓練集隨機抽樣影像生成平均視覺提示),使用 Swin-T 輕量骨幹網路的 DETR-ViP-T 在 COCO 上達到了 42.2 mAP,超越 T-Rex2-T 達 4.4 點。
在長尾分佈更加明顯的 LVIS 資料集上,優勢更為擴大。DETR-ViP-T 在罕見類別(APr)與常見類別(APc)上,分別贏過 T-Rex2 達 +5.2 與 +9.4。面對類別分佈與訓練集差異極大的 ODinW 與 Roboflow 100 資料集,輕量版的 DETR-ViP-T 甚至直接超越了使用大型骨幹的 T-Rex2-L(分別領先 3.4 與 5.1 AP)。
為了量化證明視覺提示品質的提升,團隊提出了 IISR(類內-類間相似度比率)指標。IISR 數值越大,代表視覺提示的語義一致性越強。實驗數據顯示,從基準模型一路疊加全域整合與關係蒸餾機制,COCO 的 IISR 數值與 mAP 呈現完美的正相關成長,鐵證了 DETR-ViP 效能的飛躍,正是源自於對視覺提示底層語義結構的成功重塑。
將視覺提示從輔助過濾的附屬品,升格為具備全域辨識力的結構化特徵,DETR-ViP 為開放詞彙物件偵測指出了不依賴龐大圖文對齊的新演進方向。