AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce

Biao Zhang, Lixin Chen, Bin Zhang, Zongwei Wang, Tong Liu, et al.

View Original ↗
AI 導讀 technology AI 重要性 3/5

阿里 AFMRL 用 MLLM 屬性生成加 RL 強化解電商細粒度搜圖,576 萬商品資料集上 Recall@1 達 54.28%

  • AGCL 用 BM25 屬性分數挖硬負例並過濾偽陰性,RAR 以 Recall@50 為 RL 獎勵,最終 Recall@1 達 54.28%
  • RL 訓練湧現反直覺行為:模型自動學會越訓越短的屬性輸出,冗詞直接拉低 Recall@k 被自動剔除
  • 循環迭代訓練(CIT)只用 30% 樣本就顯著提升下游表現,但 RL 特化引入「對齊稅」限制泛化能力

向電商平台搜一件「深紅絲質 V 領 A 字裙」,CLIP 等傳統模型卻可能把「酒紅棉質圓領傘裙」排在前面——這個細粒度識別失敗問題,在阿里巴巴淘寶天貓 576 萬件商品的資料集上每天都在大量發生。來自 Taobao & Tmall Group 的這篇論文,提出用多模態大型語言模型(MLLM)屬性生成結合強化學習來解決電商細粒度商品檢索的根本困境,在細粒度實例檢索任務上最終 Recall@1 達到 54.28%,超越所有對比基準。

CLIP 的「詞袋」困境:白底藍標 vs 藍底白標

CLIP(對比式語言-影像預訓練模型)等傳統雙編碼器架構擅長寬泛語義匹配,但本質上是一個「詞袋」系統:它能識別「白色」「T 恤」「藍色」「logo」等元素的存在,卻難以可靠理解這些元素的組合結構——分不清「白底藍標」和「藍底白標」的細粒度差異,在電商場景中頻繁失守。

MLLM 的自回歸機制從架構層面克服了這個問題:生成連貫描述時模型必須理解各屬性的先後關係,天然內建組合推理能力。然而,現有大型表示模型(如 VLM2Vec)通常透過全域平均池化或末位 token 的隱藏狀態取得嵌入向量,與傳統的感興趣區域(RoI,聚焦局部特徵的細粒度對齊方法)不相容,導致 MLLM 的推理優勢難以直接轉化為細粒度表示能力。

AFMRL 的設計哲學:解耦表示模型與屬性生成器

AFMRL 的核心設計原則是解耦責任——不要求一個模型同時處理表示學習和細粒度理解,而是讓兩個專門化組件各司其職:一個高效的表示模型(Representation Model)專注生成判別性嵌入向量,一個強大的屬性生成器(Attribute Generator)負責高階推理和局部特徵提取。

屬性生成器的冷啟動採用知識蒸餾:先用 Qwen2.5-VL-72B-Instruct 作為「屬性 Oracle」,以 Chain-of-Thought(CoT,讓模型先推理再回答的技術)方式為查詢、正樣本和硬負例各自生成精準屬性,產出 1 萬條推理樣本;再把這套能力蒸餾到更輕量的 Qwen2.5-VL-3B-Instruct,大幅降低線上推理成本。實驗驗證:即使是精準的離線屬性,也能在基準表示模型上顯著拉開正負樣本的嵌入距離。

AGCL 挖硬負例、RAR 以 Recall@k 為獎勵的兩階段訓練

訓練框架分為兩個相互銜接的階段。

第一階段(AGCL,屬性引導對比學習):標準 InfoNCE 對比學習有兩個痛點——無法利用嵌入向量以外的補充信號,以及對批次中語義相似的「偽陰性」樣本錯誤懲罰。AGCL 的解法是:用 MLLM 為每個訓練樣本生成屬性列表,再計算查詢屬性與候選項屬性之間的 BM25(詞彙相關性打分算法)分數;分數越高的候選在損失函數中的負例權重越大,確保硬負例獲得更大的訓練壓力。同時,若某候選的嵌入相似度超過正樣本一定邊距(margin 設為 0.4),則從批次負例池中移除,避免偽陰性帶來噪音梯度。

第二階段(RAR,檢索感知屬性強化):蒸餾階段的屬性生成器與最終檢索任務之間存在優化目標錯位。RAR 引入強化學習來橋接:把預訓練好的表示模型作為「獎勵環境」,以屬性增強後的查詢進行真實搜索,再用 Recall@k 分數直接作為獎勵,透過 GRPO(群組相對策略優化,一種省去 Critic 網路的高效 RL 算法)直接優化屬性生成策略。k 值對訓練效果敏感:k=10 獎勵稀疏、k=100 信號飽和,實驗確認 k=50 達到最佳學習效率。RAR 階段使用學習率 1e-6,僅需 350 步快速收斂。

AFMRL 兩階段訓練框架總覽
階段組件核心機制解決的問題
Stage 1AGCL(屬性引導對比學習)BM25 硬負例加權 + margin 偽陰性過濾InfoNCE 無法利用屬性信號、偽陰性錯誤懲罰
Stage 2RAR(檢索感知屬性強化)GRPO + Recall@50 直接獎勵信號蒸餾目標與最終檢索任務的優化目標錯位

兩個階段解耦優化目標,互補解決對比學習與生成對齊的核心矛盾

Recall@1 達 54.28%,RL 訓練湧現「越訓越短」行為

細粒度實例檢索(Fine-Grained Instance Retrieval)要求屬性完全匹配才算正樣本,是本文最嚴苛的評估任務。主要結果顯示:引入蒸餾屬性生成器後,Recall@1 提升至 52.42%;進一步引入 RAR 強化學習策略後,達到 54.28%,在所有對比基準中最高。

RL 訓練過程中出現了有趣的湧現行為:屬性的平均生成長度持續縮短。這與數學推理類任務(「思考鏈越長越好」)截然相反——冗長或不相關的屬性在檢索中是噪音,直接拉低 Recall@k,策略模型因此被隱性地鼓勵生成「剛好足夠用」的最短屬性集。相比之下,AGCL 訓練曲線也展示出持續穩定的提升,而基準 VLM2Vec 則快速達到局部最優後停滯,說明 AGCL 透過聚焦有意義的負例,有效防止了模型過早過擬合。

細粒度實例檢索 Recall@1(AFMRL 消融對比)

RAR 強化學習在蒸餾生成器基礎上再提升約 1.86 個百分點

「對齊稅」效應與循環迭代訓練(CIT)的潛力

研究者誠實指出了方法的主要限制。在下游分類與聚類評估中(849,207 件商品、5,146 個類別),RL 訓練模型(π_RL)的泛化優勢比 SFT 模型更小——這是典型的「對齊稅(alignment tax)」現象:模型被高度特化為 Recall@k 目標後,廣泛任務所需的通用特徵表達能力有所退化。

論文同時展示了值得關注的後續方向——循環迭代訓練(CIT)。框架將屬性生成與表示學習解耦,使 RL 訓練完成的屬性生成器可以反饋回 AGCL 流程進行再訓練。實驗顯示,僅用 30% 的訓練樣本搭配 RL 生成的屬性做 AGCL,下游任務表現就明顯提升,這個自我強化的閉環值得大規模探索。

阿里用「屬性生成 → 對比學習 → RL 反饋」三段閉環解決電商細粒度搜圖,RL 的奇異副作用是讓模型自動學會說得更少、說得更準。

Abstract

Multimodal representation is crucial for E-commerce tasks such as identical product retrieval. Large representation models (e.g., VLM2Vec) demonstrate strong multimodal understanding capabilities, yet they struggle with fine-grained semantic comprehension, which is essential for distinguishing highly similar items. To address this, we propose Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning (AFMRL), which defines product fine-grained understanding as an attribute generation task. It leverages the generative power of Multimodal Large Language Models (MLLMs) to extract key attributes from product images and text, and enhances representation learning through a two-stage training framework: 1) Attribute-Guided Contrastive Learning (AGCL), where the key attributes generated by the MLLM are used in the image-text contrastive learning training process to identify hard samples and filter out noisy false negatives. 2) Retrieval-aware Attribute Reinforcement (RAR), where the improved retrieval performance of the representation model post-attribute integration serves as a reward signal to enhance MLLM's attribute generation during multimodal fine-tuning. Extensive experiments on large-scale E-commerce datasets demonstrate that our method achieves state-of-the-art performance on multiple downstream retrieval tasks, validating the effectiveness of harnessing generative models to advance fine-grained representation learning.