SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding
SIMMER 採單一模型,將高難度 10k 食譜檢索準確率由 56.5% 躍升至 65.5%。
- 首度以單一多模態大模型取代雙編碼器,重塑圖文食譜檢索架構。
- 專為食譜結構設計提示詞,並結合資料增強策略克服殘缺輸入難題。
- 7B 模型於 10k 檢索達 65.5% 準確率,較舊紀錄躍升 9 個百分點。
日本電氣通信大學的研究團隊提出 SIMMER 模型,在 Recipe1M 食譜檢索基準測試中,成功將最高難度的 10k 影像到食譜檢索 R@1 準確率從 56.5% 推升至 65.5%。這項研究打破了過去高度依賴獨立視覺與文字雙編碼器的設計慣例。團隊首次證明,單一的多模態大型語言模型能在不需要複雜對齊機制的條件下,同時處理並融合影像與高度結構化的食譜資訊。
告別雙編碼器:以單一 MLLM 統一圖文特徵
食譜與料理影像的跨模態檢索,一直是營養管理與智慧烹飪應用的底層技術。在過去數年發展中,業界的主流解決方案清一色採用雙編碼器架構(Dual-encoder architecture),也就是分別訓練獨立的影像神經網路(如 ResNet)與文字編碼器(如 LSTM 或 Transformer)。為了讓這兩種截然不同的特徵空間產生交集,工程師必須設計極度複雜的對齊策略。例如早期的 ACME 模型仰賴對抗性訓練來匹配特徵分佈,而後期的 T-Food 則引入專為食譜特製的階層式解碼器進行正規化。SIMMER(單一整合多模態食譜嵌入模型)則採取了完全不同的路徑。團隊捨棄了分離編碼的傳統慣例,直接引入具備強大圖文理解能力的 MLLM(多模態大型語言模型)作為統一編碼器。透過共用同一個神經網路模型,影像與文字能在編碼階段就被原生地映射到同一個向量空間中。這項改變不僅徹底去除了繁瑣的跨模態對齊機制與任務導向的網路設計,更讓檢索系統得以直接繼承大型模型在預訓練階段累積的豐富世界知識。
藉 VLM2Vec 框架處理高度結構化食譜
要讓通用型 MLLM 具備專業的食譜檢索與配對能力,SIMMER 採用了最新的 VLM2Vec 框架將語言模型轉換為高效率的嵌入(Embedding)生成器。研究團隊特別選用以 Qwen2-VL 為基礎架構的 VLM2Vec-V1 與 VLM2Vec-V2 進行微調。系統會精準擷取語言模型最後一層最後一個標記(Token)的隱藏狀態向量,作為最終的多模態嵌入表示。考慮到食譜具有高度結構化的獨特屬性,通常包含標題、食材清單與烹飪步驟,團隊為查詢(Query)與候選目標(Candidate)設計了非對稱的專屬提示詞(Prompt)模板。當使用者上傳一張食物影像進行查詢時,系統會附加「尋找對應食譜」的明確指令;若該影像作為被檢索的候選項目,則會改用「生成視覺表示以供食譜配對」的描述性提示。針對文字端的處理,模型會將配方標題、逗號分隔的食材名稱與空格串接的料理步驟整合成單一文字區塊。系統隨後會依照當下的檢索方向,輸入對應的引導詞,藉此激發模型產生最適合特定檢索情境的高維度特徵向量。
破解資料殘缺難題:導入組件感知資料增強
現實世界中的資料庫往往充滿參差不齊的紀錄,使用者可能只記得一道菜的名稱,或者手邊僅有一份不完整的食材清單卻缺乏詳細的料理步驟。為了確保模型在面臨輸入資訊殘缺時依然能保持高度穩定的表現,SIMMER 引入了組件感知資料增強(Component-aware data augmentation)的創新策略。在模型微調階段,系統不僅會輸入完整的食譜資料,還會以自動化的方式人為拆解配方,刻意移除三大要素(標題、食材、步驟)中的其中兩項。這代表每一筆原始的圖文配對紀錄,都會額外衍生出「僅包含標題」、「僅包含食材」以及「僅包含步驟」三種殘缺的訓練樣本。實驗數據確實印證了這項機制的必要性與有效性。當測試時的查詢條件僅剩下標題時,經過資料增強訓練的模型能將 1k 影像到食譜的 R@1 準確率從 40.4% 提升至 44.4%;若僅給予食材,準確率也能從 34.9% 提升至 38.8%。有趣的是,若測試時僅提供烹飪步驟,模型的 R@1 竟然高達 74.2%,遠勝其他單一文字組件,證明料理步驟本身蘊含了與最終視覺外觀最直接相關的核心語意特徵。
百萬食譜測試告捷:7B 模型檢索率達 65.5%
為了驗證這套統一編碼架構的效能極限,研究團隊在包含超過一百萬筆配方的 Recipe1M 大型基準測試集上進行了全面且嚴格的評估。無論是在基礎的 1k 還是難度極高的 10k 測試環境中,SIMMER 的三種模型變體皆以壓倒性的差距超越了包含 DAR、Yang et al. 在內的所有現存演算法。在最關鍵的 1k 影像到食譜檢索任務中,效能最強的 SIMMER (V1-7B) 將業界最高紀錄從 81.8% 一舉推升至 87.5%。當候選池規模擴大十倍至 10,000 筆資料時,R@1 準確率的提升更加令人矚目,從前代最佳的 56.5% 大幅躍升至 65.5%,絕對增幅高達 9.0 個百分點。值得深入探討的是,參數量達 70 億的 V1-7B 模型,其整體表現反而擊敗了採用更新架構的 V2 模型(僅 20 億參數)。這項效能反轉現象顯示,在捕捉極度細緻的圖文對應關係時,模型本身的參數量與嵌入向量的維度(3584 維對比 1536 維)扮演了不可或缺的決定性角色。
跨越 46.7% 零樣本落差:精準捕捉視覺線索
儘管現今的多模態模型皆具備深厚的視覺與語言基礎理解力,但在專業的食譜檢索領域中,任務專屬的微調依舊是決定成敗的關鍵。消融實驗(Ablation study)明確揭示了一個驚人的效能對比:若直接將預訓練完畢的 V1-7B 模型進行零樣本(Zero-shot)推論,其 1k 影像到食譜的 R@1 分數僅有慘澹的 40.8%;而經過 Recipe1M 資料集的微調後,該指標隨即飆升了 46.7 個百分點 達到 87.5%。這種大幅度的性能躍進,直接反映在模型對微小且關鍵視覺線索的精準捕捉能力上。在實際的圖搜文案例中,當查詢一張外觀看似普通餅乾的影像時,SIMMER 能夠敏銳偵測到邊緣微露的奶油夾心,並準確將 S'mores(棉花糖巧克力夾心餅)相關食譜排在第一順位。在另一組文搜圖任務中,模型甚至能從眾多視覺雷同的南瓜派影像裡,利用極細微的質地差異,精確辨識並找出正確的「肉豆蔻楓糖奶油派」。研究發現,唯有當資料庫本身出現嚴重的標記瑕疵時,模型才會遭遇無可避免的檢索挫敗,這反而再次證明了單一大型模型在跨模態語意對齊上已達到極高的人工對齊水準。
SIMMER 捨棄繁瑣的雙編碼器對齊設計,證明只要給予適當提示詞與資料增強,單一多模態大型語言模型便能在結構化檢索任務建立全新標竿。