G-MIXER: Geodesic Mixup-based Implicit Semantic Expansion and Explicit Semantic Re-ranking for Zero-Shot Composed Image Retrieval
G-MIXER 演算法透過測地線混疊與顯性語意重排序,在無需訓練下將 CIRR 資料集檢索準確率提升 7.83%。
- G-MIX 模組利用測地線混疊技術,在 CLIP 空間融合圖文特徵,保留隱性視覺語意並擴大檢索範圍。
- ER 重排序機制透過 MLLM 生成包含與排除條件,精準過濾不符文字修改指令的雜訊候選圖片。
- 在 CIRCO 與 CIRR 等基準測試中,G-MIXER 在無需額外訓練下,mAP@50 分別提升 3.42% 與 7.83%。
現有的零樣本組合影像檢索(ZS-CIR)高度依賴文字描述,容易遺失圖片未提及的隱含細節。最新發布的 G-MIXER 演算法打破此限制,透過測地線混疊(Geodesic Mixup)與顯性語意重排序技術,在無需額外訓練的情況下,於 CIRR 資料集的 mAP@50 準確率大幅提升 7.83%。這項技術證明,保留視覺特徵的模糊性並利用文字精準過濾,能顯著改善多模態搜尋的整體表現。
ZS-CIR 過度依賴 MLLM 導致的語意流失問題
組合影像檢索(CIR,Composed Image Retrieval)的核心挑戰,在於同時處理視覺內容與文字語意,進而找出最符合使用者意圖的目標圖片。在真實世界的應用情境中,使用者經常提供一張參考圖片,並附帶一段文字修改指令。例如提供一張「裝滿水果的籃子」圖片,並附上「把水果換成蔬菜與長凳」的文字。在這組雙模態查詢中,文字明確指出了「蔬菜」與「長凳」等顯性條件,但未被提及的「籃子」或背景物件等隱性特徵,是否應該保留在目標圖片中,則充滿模糊空間。
傳統的監督式 CIR 演算法需要耗費大量資源標註圖文三元組進行訓練,因此近期學界轉向零樣本(Zero-Shot)CIR 研究。目前主流的免訓練 ZS-CIR 演算法,高度依賴多模態大型語言模型(MLLM,能同時處理圖文輸入並具備推理能力的 AI 模型)來生成詳細的目標描述。這類做法會將圖片中的隱性特徵強制轉換為文字表達,導致原本模糊的視覺特徵被過度明確化。一旦文字描述與資料庫中的真實圖片細節不符,就會大幅限縮檢索範圍,導致搜尋結果的多樣性與準確度雙雙下降。
為了解決文字轉換造成的語意流失,成均館大學(Sungkyunkwan University)研究團隊提出了 G-MIXER 架構。這套方法不再執著於將所有資訊轉化為純文字,而是設計了包含「隱性語意擴張」與「顯性語意重排序」的兩階段機制,不僅能盡可能保留圖片原始的模糊特徵,還能依賴文字指令精準剔除不相關的雜訊。
G-MIX 模組:測地線混疊擴充隱性視覺特徵
G-MIXER 的第一階段為基於測地線混疊的隱性語意擴張檢索(G-MIX)。此模組的核心概念是不依賴 MLLM 生成攏長的文字描述,而是直接在預訓練模型(如 CLIP)的高維度嵌入空間中,將圖片特徵與文字特徵進行融合。由於 CLIP 的特徵空間是建立在餘弦相似度(Cosine Similarity)上的超球面結構,若採用傳統的線性混疊(Linear Mixup),產生的新特徵向量會偏離球面,進而扭曲原有的幾何語意。因此,G-MIX 改採測地線混疊(Geodesic Mixup),沿著超球面上兩點之間的最短路徑進行特徵融合。
在實作上,G-MIX 模組會根據不同的混疊比例($\lambda$)生成一系列的組合查詢特徵。例如當 $\lambda$ 為 0.8 時,代表查詢特徵中包含 80% 的文字權重與 20% 的圖片權重。研究團隊將 $\lambda$ 的範圍設定在 0.7 到 1.0 之間,並以 0.05 為間距,沿著語意軌跡採樣出多個組合特徵進行獨立檢索。這種動態調整比例的做法,能讓演算法平滑過渡圖片與文字的語意邊界。
比起直接用單一文字描述進行搜尋,G-MIX 透過多重比例探索了更廣泛的語意空間,成功保留了圖片中未被明確提及的結構與背景資訊。演算法會將所有比例下的檢索結果整合,建立出一個涵蓋多元隱性視覺特徵的第一階段候選圖片集。這種模糊檢索機制(Fuzzy Retrieval)大幅提高了涵蓋正確目標圖片的機率,但也無可避免地引入了部分不符文字修改指令的雜訊候選者。
ER 機制:利用 GPT-4o 萃取顯性條件剔除雜訊
為了解決初步檢索池中的雜訊問題,研究團隊提出了顯性語意重排序(Explicit semantic Re-ranking,簡稱 ER)模組。傳統的重排序方法通常讓 MLLM 生成多組描述後再次比對,但這些描述中依舊夾雜著無法確定的隱性條件。ER 模組則改變策略,要求 MLLM(如 GPT-4o)專注於使用者提供的修改文字,明確萃取出目標圖片必須「包含(Include)」與「排除(Exclude)」的顯性屬性。
在評分機制中,ER 會分別計算每張候選圖片與「包含條件」及「排除條件」的相似度差異($\Delta$)。具體而言,如果一張圖片非常符合包含條件,且明顯遠離排除條件,演算法就會給予高度獎勵;反之,若圖片偏離了目標描述中要求新增的顯性特徵,就會被扣分。這套以差異值為基礎的非線性評分系統,結合了原始組合查詢的餘弦相似度,計算出每張圖片的最終得分。
透過這套機制,G-MIXER 實現了精細的去蕪存菁。候選圖片即便因為具備強烈的隱性視覺相似度而在第一階段入選,若無法滿足文字指令明確要求的屬性變更(例如「將紅色衣服換成藍色」),也會在 ER 階段遭到降級。這種結合「隱性擴張」與「顯性過濾」的雙重架構,讓檢索系統在具備極高多樣性的同時,依然維持嚴格的準確率。
CIRCO 等四大基準測試效能與運算效率表現
在實證效能方面,G-MIXER 橫掃了 CIRCO、CIRR、FashionIQ 以及 GeneCIS 等四大 ZS-CIR 基準測試,超越了過去所有依賴虛擬標記(Pseudo-token)學習或純文字推理的免訓練模型。在最嚴格的 CIRCO (ViT-L/14) 測試中,G-MIXER 達到了 32.39% 的 mAP@50 準確率,比先前的最高標竿 OSrCIR 提升了 +3.42%;而在前 5 名(k=5)的極窄檢索範圍內,G-MIXER 依舊領先 OSrCIR 達 +4.42%。
在真實場景圖庫 CIRR 測試中,G-MIXER 將 mAP@50 一舉推升至 77.69%,較競爭對手大幅躍升 +7.83%。此外,在專注於服裝顏色、紋理等微小細節變化的 FashionIQ 測試中,G-MIXER 的平均 Recall@50 也提升了 +8.1%。這證明了不論是宏觀的物件替換,還是微觀的材質改變,測地線混疊策略都能妥善保存原始圖片的精細視覺細節。
從運算效率來看,這套免訓練演算法的導入成本極低。在單張 NVIDIA 4090 GPU 上,處理一次查詢的 MLLM 生成時間約為 0.6 秒,檢索推論僅需 0.34 秒。由於所有圖片與文字的嵌入特徵(Embeddings)都能事先計算並存儲,採用多組 $\lambda$ 比例所增加的額外運算負擔微乎其微(小於 0.02 秒),展現了優異的運算擴展性與實用價值。
核心消融實驗揭露的最佳混疊與評分策略
為了驗證 G-MIXER 中各模組的實際貢獻,研究團隊透過多組消融實驗(Ablation Study)拆解了演算法的內部運作邏輯。首先在測地線混疊(G-MIX)的比例設定上,實驗比較了「固定單一比例」與「動態區間比例」的差異。數據顯示,固定比例的表現極不穩定,因為不同領域的資料庫對於圖文權重的偏好存在極大差異。然而,當演算法採用區間覆蓋策略,並將起始 $\lambda$ 值設定在 0.6 到 0.7 之間時,整體檢索表現達到巔峰,這證實了寬泛的比例搜尋能有效消除跨領域資料集的適應問題。
其次,在顯性語意重排序(ER)的機制設計中,如何計算獎勵與懲罰分數($\Delta$)是一門學問。實驗移除相似度差異算式後,整體準確率崩跌了 16.49%,顯示重排序是 G-MIXER 的絕對核心。有趣的是,在計算「包含條件(Include)」時,演算法發現對「未能增加相似度」的候選圖片進行懲罰,遠比單純獎勵高分圖片來得有效。這項反直覺的結果暗示,過度強調相似度增益會導致模型對文字特徵「過擬合(Overfitting)」,反而扼殺了 G-MIX 模組好不容易保留下來的隱性視覺多樣性。
而在「排除條件(Exclude)」的處理上,邏輯則恰好相反。給予「成功移除排除屬性」的圖片分數獎勵,比懲罰帶有該屬性的圖片效果更好。這些實驗細節充分說明了在複雜的多模態檢索任務中,如何拿捏文字與影像特徵的平衡,遠比單純套用最強的語言模型來得關鍵。即便將推理核心從高階的 GPT-4o 降級為運算成本更低的 GPT-4o-mini,系統的整體效能也僅微幅下滑約 1%,證明了這套演算法具備高度的穩健性與泛用潛力。
結合測地線混疊擴張視覺特徵與大型模型萃取文字重排序,無需重新訓練即能大幅提升多模態檢索精準度。