G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval

Jiyoung Lim, Heejae Yang, Jee-Hyong Lee

View Original ↗
AI 導讀 technology AI 重要性 4/5

G-MIXER 演算法透過測地線混疊與顯性語意重排序,在無需訓練下將 CIRR 資料集檢索準確率提升 7.83%。

  • G-MIX 模組利用測地線混疊技術,在 CLIP 空間融合圖文特徵,保留隱性視覺語意並擴大檢索範圍。
  • ER 重排序機制透過 MLLM 生成包含與排除條件,精準過濾不符文字修改指令的雜訊候選圖片。
  • 在 CIRCO 與 CIRR 等基準測試中,G-MIXER 在無需額外訓練下,mAP@50 分別提升 3.42% 與 7.83%。

現有的零樣本組合影像檢索(ZS-CIR)高度依賴文字描述,容易遺失圖片未提及的隱含細節。最新發布的 G-MIXER 演算法打破此限制,透過測地線混疊(Geodesic Mixup)與顯性語意重排序技術,在無需額外訓練的情況下,於 CIRR 資料集的 mAP@50 準確率大幅提升 7.83%。這項技術證明,保留視覺特徵的模糊性並利用文字精準過濾,能顯著改善多模態搜尋的整體表現。

ZS-CIR 過度依賴 MLLM 導致的語意流失問題

組合影像檢索(CIR,Composed Image Retrieval)的核心挑戰,在於同時處理視覺內容與文字語意,進而找出最符合使用者意圖的目標圖片。在真實世界的應用情境中,使用者經常提供一張參考圖片,並附帶一段文字修改指令。例如提供一張「裝滿水果的籃子」圖片,並附上「把水果換成蔬菜與長凳」的文字。在這組雙模態查詢中,文字明確指出了「蔬菜」與「長凳」等顯性條件,但未被提及的「籃子」或背景物件等隱性特徵,是否應該保留在目標圖片中,則充滿模糊空間。

傳統的監督式 CIR 演算法需要耗費大量資源標註圖文三元組進行訓練,因此近期學界轉向零樣本(Zero-Shot)CIR 研究。目前主流的免訓練 ZS-CIR 演算法,高度依賴多模態大型語言模型(MLLM,能同時處理圖文輸入並具備推理能力的 AI 模型)來生成詳細的目標描述。這類做法會將圖片中的隱性特徵強制轉換為文字表達,導致原本模糊的視覺特徵被過度明確化。一旦文字描述與資料庫中的真實圖片細節不符,就會大幅限縮檢索範圍,導致搜尋結果的多樣性與準確度雙雙下降。

為了解決文字轉換造成的語意流失,成均館大學(Sungkyunkwan University)研究團隊提出了 G-MIXER 架構。這套方法不再執著於將所有資訊轉化為純文字,而是設計了包含「隱性語意擴張」與「顯性語意重排序」的兩階段機制,不僅能盡可能保留圖片原始的模糊特徵,還能依賴文字指令精準剔除不相關的雜訊。

G-MIX 模組:測地線混疊擴充隱性視覺特徵

G-MIXER 的第一階段為基於測地線混疊的隱性語意擴張檢索(G-MIX)。此模組的核心概念是不依賴 MLLM 生成攏長的文字描述,而是直接在預訓練模型(如 CLIP)的高維度嵌入空間中,將圖片特徵與文字特徵進行融合。由於 CLIP 的特徵空間是建立在餘弦相似度(Cosine Similarity)上的超球面結構,若採用傳統的線性混疊(Linear Mixup),產生的新特徵向量會偏離球面,進而扭曲原有的幾何語意。因此,G-MIX 改採測地線混疊(Geodesic Mixup),沿著超球面上兩點之間的最短路徑進行特徵融合。

在實作上,G-MIX 模組會根據不同的混疊比例($\lambda$)生成一系列的組合查詢特徵。例如當 $\lambda$ 為 0.8 時,代表查詢特徵中包含 80% 的文字權重與 20% 的圖片權重。研究團隊將 $\lambda$ 的範圍設定在 0.7 到 1.0 之間,並以 0.05 為間距,沿著語意軌跡採樣出多個組合特徵進行獨立檢索。這種動態調整比例的做法,能讓演算法平滑過渡圖片與文字的語意邊界。

比起直接用單一文字描述進行搜尋,G-MIX 透過多重比例探索了更廣泛的語意空間,成功保留了圖片中未被明確提及的結構與背景資訊。演算法會將所有比例下的檢索結果整合,建立出一個涵蓋多元隱性視覺特徵的第一階段候選圖片集。這種模糊檢索機制(Fuzzy Retrieval)大幅提高了涵蓋正確目標圖片的機率,但也無可避免地引入了部分不符文字修改指令的雜訊候選者。

ER 機制:利用 GPT-4o 萃取顯性條件剔除雜訊

為了解決初步檢索池中的雜訊問題,研究團隊提出了顯性語意重排序(Explicit semantic Re-ranking,簡稱 ER)模組。傳統的重排序方法通常讓 MLLM 生成多組描述後再次比對,但這些描述中依舊夾雜著無法確定的隱性條件。ER 模組則改變策略,要求 MLLM(如 GPT-4o)專注於使用者提供的修改文字,明確萃取出目標圖片必須「包含(Include)」與「排除(Exclude)」的顯性屬性。

在評分機制中,ER 會分別計算每張候選圖片與「包含條件」及「排除條件」的相似度差異($\Delta$)。具體而言,如果一張圖片非常符合包含條件,且明顯遠離排除條件,演算法就會給予高度獎勵;反之,若圖片偏離了目標描述中要求新增的顯性特徵,就會被扣分。這套以差異值為基礎的非線性評分系統,結合了原始組合查詢的餘弦相似度,計算出每張圖片的最終得分。

透過這套機制,G-MIXER 實現了精細的去蕪存菁。候選圖片即便因為具備強烈的隱性視覺相似度而在第一階段入選,若無法滿足文字指令明確要求的屬性變更(例如「將紅色衣服換成藍色」),也會在 ER 階段遭到降級。這種結合「隱性擴張」與「顯性過濾」的雙重架構,讓檢索系統在具備極高多樣性的同時,依然維持嚴格的準確率。

CIRCO 等四大基準測試效能與運算效率表現

在實證效能方面,G-MIXER 橫掃了 CIRCO、CIRR、FashionIQ 以及 GeneCIS 等四大 ZS-CIR 基準測試,超越了過去所有依賴虛擬標記(Pseudo-token)學習或純文字推理的免訓練模型。在最嚴格的 CIRCO (ViT-L/14) 測試中,G-MIXER 達到了 32.39% 的 mAP@50 準確率,比先前的最高標竿 OSrCIR 提升了 +3.42%;而在前 5 名(k=5)的極窄檢索範圍內,G-MIXER 依舊領先 OSrCIR 達 +4.42%

在真實場景圖庫 CIRR 測試中,G-MIXER 將 mAP@50 一舉推升至 77.69%,較競爭對手大幅躍升 +7.83%。此外,在專注於服裝顏色、紋理等微小細節變化的 FashionIQ 測試中,G-MIXER 的平均 Recall@50 也提升了 +8.1%。這證明了不論是宏觀的物件替換,還是微觀的材質改變,測地線混疊策略都能妥善保存原始圖片的精細視覺細節。

從運算效率來看,這套免訓練演算法的導入成本極低。在單張 NVIDIA 4090 GPU 上,處理一次查詢的 MLLM 生成時間約為 0.6 秒,檢索推論僅需 0.34 秒。由於所有圖片與文字的嵌入特徵(Embeddings)都能事先計算並存儲,採用多組 $\lambda$ 比例所增加的額外運算負擔微乎其微(小於 0.02 秒),展現了優異的運算擴展性與實用價值。

核心消融實驗揭露的最佳混疊與評分策略

為了驗證 G-MIXER 中各模組的實際貢獻,研究團隊透過多組消融實驗(Ablation Study)拆解了演算法的內部運作邏輯。首先在測地線混疊(G-MIX)的比例設定上,實驗比較了「固定單一比例」與「動態區間比例」的差異。數據顯示,固定比例的表現極不穩定,因為不同領域的資料庫對於圖文權重的偏好存在極大差異。然而,當演算法採用區間覆蓋策略,並將起始 $\lambda$ 值設定在 0.6 到 0.7 之間時,整體檢索表現達到巔峰,這證實了寬泛的比例搜尋能有效消除跨領域資料集的適應問題。

其次,在顯性語意重排序(ER)的機制設計中,如何計算獎勵與懲罰分數($\Delta$)是一門學問。實驗移除相似度差異算式後,整體準確率崩跌了 16.49%,顯示重排序是 G-MIXER 的絕對核心。有趣的是,在計算「包含條件(Include)」時,演算法發現對「未能增加相似度」的候選圖片進行懲罰,遠比單純獎勵高分圖片來得有效。這項反直覺的結果暗示,過度強調相似度增益會導致模型對文字特徵「過擬合(Overfitting)」,反而扼殺了 G-MIX 模組好不容易保留下來的隱性視覺多樣性。

而在「排除條件(Exclude)」的處理上,邏輯則恰好相反。給予「成功移除排除屬性」的圖片分數獎勵,比懲罰帶有該屬性的圖片效果更好。這些實驗細節充分說明了在複雜的多模態檢索任務中,如何拿捏文字與影像特徵的平衡,遠比單純套用最強的語言模型來得關鍵。即便將推理核心從高階的 GPT-4o 降級為運算成本更低的 GPT-4o-mini,系統的整體效能也僅微幅下滑約 1%,證明了這套演算法具備高度的穩健性與泛用潛力。

結合測地線混疊擴張視覺特徵與大型模型萃取文字重排序,無需重新訓練即能大幅提升多模態檢索精準度。

Abstract

Composed Image Retrieval (CIR) aims to retrieve target images by integrating a reference image with a corresponding modification text. CIR requires jointly considering the explicit semantics specified in the query and the implicit semantics embedded within its bi-modal composition. Recent training-free Zero-Shot CIR (ZS-CIR) methods leverage Multimodal Large Language Models (MLLMs) to generate detailed target descriptions, converting the implicit information into explicit textual expressions. However, these methods rely heavily on the textual modality and fail to capture the fuzzy retrieval nature that requires considering diverse combinations of candidates. This leads to reduced diversity and accuracy in retrieval results. To address this limitation, we propose a novel training-free method, Geodesic Mixup-based Implicit semantic eXpansion and Explicit semantic Re-ranking for ZS-CIR (G-MIXER). G-MIXER constructs composed query features that reflect the implicit semantics of reference image-text pairs through geodesic mixup over a range of mixup ratios, and builds a diverse candidate set. The generated candidates are then re-ranked using explicit semantics derived from MLLMs, improving both retrieval diversity and accuracy. Our proposed G-MIXER achieves state-of-the-art performance across multiple ZS-CIR benchmarks, effectively handling both implicit and explicit semantics without additional training. Our code will be available at https://github.com/maya0395/gmixer.