Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval
STBIR 框架透過融合手繪草圖與文字描述,在日常物件資料庫中將檢索準確率推升至 62.85%。
- STBIR結合手繪草圖與文字描述,大幅提升細粒度影像檢索準確度。
- MCFA分階段解耦訓練軌跡,成功解決跨模態聯合優化的參數發散。
- 引進動態雜訊與類別特徵優化,大幅提升面對低品質查詢的穩健度。
當使用者輸入手繪草圖與文字描述來搜尋特定影像時,跨模態的語意鴻溝往往導致精準度大幅下降。西安電子科技大學團隊提出的 STBIR(草圖與文字影像檢索) 框架,透過融合這兩種互補資訊,在包含大量日常物件的 STBIR-D 資料庫中,將第一名檢索命中率推升至 62.85%,顯著超越現有的單一或多模態檢索模型。
建構涵蓋草圖與文字描述的 STBIR 基準資料庫
在 FG-IR(細粒度影像檢索) 領域中,使用者通常透過文字或手繪草圖來表達想要尋找的目標物件。然而,文字雖然擅長描述顏色、材質等視覺屬性,卻難以精準傳達不規則的結構細節;相反地,手繪草圖能輕易勾勒出幾何輪廓與空間佈局,但先天缺乏色彩與紋理資訊。為了發揮這兩種模態的互補優勢,研究團隊開發了全新的聯合學習框架與專屬資料庫。
現有的基準測試大多缺乏真正由人類手繪、且同時具備精細文字描述與真實影像的「三模態」配對資料。為此,團隊建構了全新的 STBIR 資料庫,並將其細分為三個核心子集。STBIR-S 與 STBIR-C 分別聚焦於去背後的單一類別(鞋子與椅子),非常適合電商產品搜尋等垂直應用場景;而 STBIR-D 則涵蓋了具有複雜背景的大規模日常物件,能應對更廣泛的實務檢索需求。
在資料庫的建置過程中,研究團隊利用了 Qwen(通義千問大型語言模型) 來生成影像主體的結構化描述。透過設計特定的提示語策略,限制模型必須關注主要物件,涵蓋皮革、木質等材質與色彩屬性,並控制輸出在三到十二個短語之間。生成的描述後續再經過嚴謹的人工驗證,剔除語意偏移的內容,確保三種模態在細粒度屬性上的高度對齊。與過去依賴演算法生成邊緣圖或使用預設範本的資料庫相比,這套公開基準為後續研究提供了更扎實的數據基礎。
引進 CLDRE 課程雜訊與 CKFSO 類別特徵優化
為了解決細粒度檢索中常見的特徵鑑別度不足與模型適應性問題,團隊在特徵編碼階段導入了兩個關鍵模組。手繪草圖的特徵萃取採用了 ResNet(殘差網路) 架構,而影像與文字特徵則直接載入 CLIP(對比語言圖片預訓練模型) 的預訓練權重。在此基礎上,第一個介入的是 CLDRE(課程學習驅動的穩健性增強) 模組。
使用者的查詢品質往往參差不齊,草圖可能極度抽象,文字描述也可能不完整。CLDRE 模組的設計靈感來自從簡單到複雜的認知演化過程。在訓練初期,模型主要處理高保真、完整的模態樣本,藉由穩定的資料分佈建立跨模態特徵空間的基礎對應關係。隨著訓練進度推進,模組會動態且漸進地將雜訊注入輸入特徵中,人為降低查詢品質。這種機制強制模型在受到干擾的情況下依然必須抓取核心特徵,大幅增強了模型面對低品質查詢的穩健性。
除了穩健性,細粒度檢索對特徵的鑑別度要求極高。為此,團隊設計了 CKFSO(基於類別知識的特徵空間優化) 模組。該模組借鑒了人臉辨識領域常用的附加角度邊距損失函數,將增強後的特徵與對應的語意類別標籤作為輸入。透過計算特徵與真實類別中心之間的角度距離,並在損失函數中加入固定的角度邊距懲罰(m=0.15),這套機制強迫同一類別的特徵在空間中更加緊密凝聚,同時顯著擴大不同類別特徵之間的距離,極大地提升了模型在細微差異上的表徵能力。
MCFA 三階段特徵對齊解決跨模態梯度崩潰
在多模態聯合學習中,最棘手的挑戰之一是特徵分佈的嚴重偏移與梯度不平衡。在初始化階段,類神經網路傾向將影像和文字映射到互不重疊的子空間,這種空間隔離會導致對比學習時梯度計算劇烈波動。此外,深度學習模型具有貪婪優化的特性,往往會優先擬合那些特徵更容易被萃取的模態,導致其他模態的學習進度落後,最終引發數值不穩定甚至訓練崩潰。
為了解決這個參數發散的問題,團隊提出了一套 MCFA(多階段跨模態特徵對齊) 機制,將不同模態的優化軌跡進行解耦。第一階段稱為「草圖特徵映射」,考量到 CLIP 的影像與文字編碼器在預訓練時已建立了良好的對齊基礎,此階段嚴格凍結影像與文字分支的參數,僅針對手繪草圖編碼器進行優化,將草圖的特徵空間優先映射到既有的影像與文字聯合空間中。
第二階段是「影像特徵空間微調」。由於手繪草圖與自然影像同屬視覺領域,兩者在空間結構與幾何拓撲上有著強烈的視覺親和力,因此這階段會凍結草圖與文字編碼器,專注微調影像編碼器。這能利用草圖中的幾何結構先驗知識,重塑潛在空間中的影像特徵分佈。最後一階段則是「文字表徵整合」,在草圖與影像分支完成互補優化後,專門微調文字編碼器,確保顏色、紋理等細粒度屬性能精準嵌入已經建立好的聯合特徵空間中。
STBIR-C 資料庫 R@1 達 57.88% 超越 Pic2Word
在實驗評估環節,研究團隊採用了檢索領域標準的 R@K(Recall@K) 指標,用來衡量模型前 K 個候選結果中是否包含真實目標。實驗結果顯示,相較於僅依賴單一模態的傳統雙流網路架構,融合多模態資訊的檢索表現有著決定性的優勢。單純依賴草圖的方法因為缺乏紋理與色彩資訊,表現通常墊底;而純文字檢索雖然能利用大型預訓練模型的語意對齊,但在不規則輪廓的檢索上依然受限。
在單一類別的 STBIR-C(椅子) 資料庫中,STBIR 框架展現了壓倒性的優勢,其 R@1(第一名命中率) 達到了 57.88%,大幅超越了目前領先的 TASKformer 與 Pic2Word 等視覺語言模型。而在類別規模更大、包含背景干擾的 STBIR-D(日常物件) 資料庫中,STBIR 同樣穩坐領先地位,不僅 R@1 達到 62.85%,前五名命中率(R@5)也高達 93.44%,證明其在處理大規模類別分佈時,依然具備優異的特徵空間聯合優化能力。
消融實驗進一步揭示了各項模組的不可或缺性。如果在訓練時放棄 MCFA 的多階段策略,改為所有參數同步更新的全參數微調,R@1 指標會急遽下降。這證實了同步微調極易破壞大型模型原有的預訓練權重,引發跨模態間的特徵干擾。優先從視覺親和度高的草圖與影像著手,最後再整合高度抽象的文字語意,是引導模型達成深度跨模態對齊的最佳實踐。
結合幾何輪廓與語意屬性的分階段訓練策略,不僅有效避免了多模態融合常見的梯度發散,更為高精度細粒度檢索樹立了全新的基準標竿。