Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval

Siyuan Wang, Hanchen Gao, Guangming Zhu, Jiang Lu, Yiyue Ma, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

STBIR 框架透過融合手繪草圖與文字描述,在日常物件資料庫中將檢索準確率推升至 62.85%。

  • STBIR結合手繪草圖與文字描述,大幅提升細粒度影像檢索準確度。
  • MCFA分階段解耦訓練軌跡,成功解決跨模態聯合優化的參數發散。
  • 引進動態雜訊與類別特徵優化,大幅提升面對低品質查詢的穩健度。

當使用者輸入手繪草圖與文字描述來搜尋特定影像時,跨模態的語意鴻溝往往導致精準度大幅下降。西安電子科技大學團隊提出的 STBIR(草圖與文字影像檢索) 框架,透過融合這兩種互補資訊,在包含大量日常物件的 STBIR-D 資料庫中,將第一名檢索命中率推升至 62.85%,顯著超越現有的單一或多模態檢索模型。

建構涵蓋草圖與文字描述的 STBIR 基準資料庫

FG-IR(細粒度影像檢索) 領域中,使用者通常透過文字或手繪草圖來表達想要尋找的目標物件。然而,文字雖然擅長描述顏色、材質等視覺屬性,卻難以精準傳達不規則的結構細節;相反地,手繪草圖能輕易勾勒出幾何輪廓與空間佈局,但先天缺乏色彩與紋理資訊。為了發揮這兩種模態的互補優勢,研究團隊開發了全新的聯合學習框架與專屬資料庫。

現有的基準測試大多缺乏真正由人類手繪、且同時具備精細文字描述與真實影像的「三模態」配對資料。為此,團隊建構了全新的 STBIR 資料庫,並將其細分為三個核心子集。STBIR-SSTBIR-C 分別聚焦於去背後的單一類別(鞋子與椅子),非常適合電商產品搜尋等垂直應用場景;而 STBIR-D 則涵蓋了具有複雜背景的大規模日常物件,能應對更廣泛的實務檢索需求。

在資料庫的建置過程中,研究團隊利用了 Qwen(通義千問大型語言模型) 來生成影像主體的結構化描述。透過設計特定的提示語策略,限制模型必須關注主要物件,涵蓋皮革、木質等材質與色彩屬性,並控制輸出在三到十二個短語之間。生成的描述後續再經過嚴謹的人工驗證,剔除語意偏移的內容,確保三種模態在細粒度屬性上的高度對齊。與過去依賴演算法生成邊緣圖或使用預設範本的資料庫相比,這套公開基準為後續研究提供了更扎實的數據基礎。

引進 CLDRE 課程雜訊與 CKFSO 類別特徵優化

為了解決細粒度檢索中常見的特徵鑑別度不足與模型適應性問題,團隊在特徵編碼階段導入了兩個關鍵模組。手繪草圖的特徵萃取採用了 ResNet(殘差網路) 架構,而影像與文字特徵則直接載入 CLIP(對比語言圖片預訓練模型) 的預訓練權重。在此基礎上,第一個介入的是 CLDRE(課程學習驅動的穩健性增強) 模組。

使用者的查詢品質往往參差不齊,草圖可能極度抽象,文字描述也可能不完整。CLDRE 模組的設計靈感來自從簡單到複雜的認知演化過程。在訓練初期,模型主要處理高保真、完整的模態樣本,藉由穩定的資料分佈建立跨模態特徵空間的基礎對應關係。隨著訓練進度推進,模組會動態且漸進地將雜訊注入輸入特徵中,人為降低查詢品質。這種機制強制模型在受到干擾的情況下依然必須抓取核心特徵,大幅增強了模型面對低品質查詢的穩健性。

除了穩健性,細粒度檢索對特徵的鑑別度要求極高。為此,團隊設計了 CKFSO(基於類別知識的特徵空間優化) 模組。該模組借鑒了人臉辨識領域常用的附加角度邊距損失函數,將增強後的特徵與對應的語意類別標籤作為輸入。透過計算特徵與真實類別中心之間的角度距離,並在損失函數中加入固定的角度邊距懲罰(m=0.15),這套機制強迫同一類別的特徵在空間中更加緊密凝聚,同時顯著擴大不同類別特徵之間的距離,極大地提升了模型在細微差異上的表徵能力。

MCFA 三階段特徵對齊解決跨模態梯度崩潰

在多模態聯合學習中,最棘手的挑戰之一是特徵分佈的嚴重偏移與梯度不平衡。在初始化階段,類神經網路傾向將影像和文字映射到互不重疊的子空間,這種空間隔離會導致對比學習時梯度計算劇烈波動。此外,深度學習模型具有貪婪優化的特性,往往會優先擬合那些特徵更容易被萃取的模態,導致其他模態的學習進度落後,最終引發數值不穩定甚至訓練崩潰。

為了解決這個參數發散的問題,團隊提出了一套 MCFA(多階段跨模態特徵對齊) 機制,將不同模態的優化軌跡進行解耦。第一階段稱為「草圖特徵映射」,考量到 CLIP 的影像與文字編碼器在預訓練時已建立了良好的對齊基礎,此階段嚴格凍結影像與文字分支的參數,僅針對手繪草圖編碼器進行優化,將草圖的特徵空間優先映射到既有的影像與文字聯合空間中。

第二階段是「影像特徵空間微調」。由於手繪草圖與自然影像同屬視覺領域,兩者在空間結構與幾何拓撲上有著強烈的視覺親和力,因此這階段會凍結草圖與文字編碼器,專注微調影像編碼器。這能利用草圖中的幾何結構先驗知識,重塑潛在空間中的影像特徵分佈。最後一階段則是「文字表徵整合」,在草圖與影像分支完成互補優化後,專門微調文字編碼器,確保顏色、紋理等細粒度屬性能精準嵌入已經建立好的聯合特徵空間中。

STBIR-C 資料庫 R@1 達 57.88% 超越 Pic2Word

在實驗評估環節,研究團隊採用了檢索領域標準的 R@K(Recall@K) 指標,用來衡量模型前 K 個候選結果中是否包含真實目標。實驗結果顯示,相較於僅依賴單一模態的傳統雙流網路架構,融合多模態資訊的檢索表現有著決定性的優勢。單純依賴草圖的方法因為缺乏紋理與色彩資訊,表現通常墊底;而純文字檢索雖然能利用大型預訓練模型的語意對齊,但在不規則輪廓的檢索上依然受限。

在單一類別的 STBIR-C(椅子) 資料庫中,STBIR 框架展現了壓倒性的優勢,其 R@1(第一名命中率) 達到了 57.88%,大幅超越了目前領先的 TASKformerPic2Word 等視覺語言模型。而在類別規模更大、包含背景干擾的 STBIR-D(日常物件) 資料庫中,STBIR 同樣穩坐領先地位,不僅 R@1 達到 62.85%,前五名命中率(R@5)也高達 93.44%,證明其在處理大規模類別分佈時,依然具備優異的特徵空間聯合優化能力。

消融實驗進一步揭示了各項模組的不可或缺性。如果在訓練時放棄 MCFA 的多階段策略,改為所有參數同步更新的全參數微調,R@1 指標會急遽下降。這證實了同步微調極易破壞大型模型原有的預訓練權重,引發跨模態間的特徵干擾。優先從視覺親和度高的草圖與影像著手,最後再整合高度抽象的文字語意,是引導模型達成深度跨模態對齊的最佳實踐。

結合幾何輪廓與語意屬性的分階段訓練策略,不僅有效避免了多模態融合常見的梯度發散,更為高精度細粒度檢索樹立了全新的基準標竿。

Abstract

Fine-grained image retrieval via hand-drawn sketches or textual descriptions remains a critical challenge due to inherent modality gaps. While hand-drawn sketches capture complex structural contours, they lack color and texture, which text effectively provides despite omitting spatial contours. Motivated by the complementary nature of these modalities, we propose the Sketch and Text Based Image Retrieval (STBIR) framework. By synergizing the rich color and texture cues from text with the structural outlines provided by sketches, STBIR achieves superior fine-grained retrieval performance. First, a curriculum learning driven robustness enhancement module is proposed to enhance the model's robustness when handling queries of varying quality. Second, we introduce a category-knowledge-based feature space optimization module, thereby significantly boosting the model's representational power. Finally, we design a multi-stage cross-modal feature alignment mechanism to effectively mitigate the challenges of cross modal feature alignment. Furthermore, we curate the fine-grained STBIR benchmark dataset to rigorously validate the efficacy of our proposed framework and to provide data support as a reference for subsequent related research. Extensive experiments demonstrate that the proposed STBIR framework significantly outperforms state of the art methods.