AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce
阿里 AFMRL 用 MLLM 屬性生成加 RL 強化解電商細粒度搜圖,576 萬商品資料集上 Recall@1 達 54.28%
- AGCL 用 BM25 屬性分數挖硬負例並過濾偽陰性,RAR 以 Recall@50 為 RL 獎勵,最終 Recall@1 達 54.28%
- RL 訓練湧現反直覺行為:模型自動學會越訓越短的屬性輸出,冗詞直接拉低 Recall@k 被自動剔除
- 循環迭代訓練(CIT)只用 30% 樣本就顯著提升下游表現,但 RL 特化引入「對齊稅」限制泛化能力
向電商平台搜一件「深紅絲質 V 領 A 字裙」,CLIP 等傳統模型卻可能把「酒紅棉質圓領傘裙」排在前面——這個細粒度識別失敗問題,在阿里巴巴淘寶天貓 576 萬件商品的資料集上每天都在大量發生。來自 Taobao & Tmall Group 的這篇論文,提出用多模態大型語言模型(MLLM)屬性生成結合強化學習來解決電商細粒度商品檢索的根本困境,在細粒度實例檢索任務上最終 Recall@1 達到 54.28%,超越所有對比基準。
CLIP 的「詞袋」困境:白底藍標 vs 藍底白標
CLIP(對比式語言-影像預訓練模型)等傳統雙編碼器架構擅長寬泛語義匹配,但本質上是一個「詞袋」系統:它能識別「白色」「T 恤」「藍色」「logo」等元素的存在,卻難以可靠理解這些元素的組合結構——分不清「白底藍標」和「藍底白標」的細粒度差異,在電商場景中頻繁失守。
MLLM 的自回歸機制從架構層面克服了這個問題:生成連貫描述時模型必須理解各屬性的先後關係,天然內建組合推理能力。然而,現有大型表示模型(如 VLM2Vec)通常透過全域平均池化或末位 token 的隱藏狀態取得嵌入向量,與傳統的感興趣區域(RoI,聚焦局部特徵的細粒度對齊方法)不相容,導致 MLLM 的推理優勢難以直接轉化為細粒度表示能力。
AFMRL 的設計哲學:解耦表示模型與屬性生成器
AFMRL 的核心設計原則是解耦責任——不要求一個模型同時處理表示學習和細粒度理解,而是讓兩個專門化組件各司其職:一個高效的表示模型(Representation Model)專注生成判別性嵌入向量,一個強大的屬性生成器(Attribute Generator)負責高階推理和局部特徵提取。
屬性生成器的冷啟動採用知識蒸餾:先用 Qwen2.5-VL-72B-Instruct 作為「屬性 Oracle」,以 Chain-of-Thought(CoT,讓模型先推理再回答的技術)方式為查詢、正樣本和硬負例各自生成精準屬性,產出 1 萬條推理樣本;再把這套能力蒸餾到更輕量的 Qwen2.5-VL-3B-Instruct,大幅降低線上推理成本。實驗驗證:即使是精準的離線屬性,也能在基準表示模型上顯著拉開正負樣本的嵌入距離。
AGCL 挖硬負例、RAR 以 Recall@k 為獎勵的兩階段訓練
訓練框架分為兩個相互銜接的階段。
第一階段(AGCL,屬性引導對比學習):標準 InfoNCE 對比學習有兩個痛點——無法利用嵌入向量以外的補充信號,以及對批次中語義相似的「偽陰性」樣本錯誤懲罰。AGCL 的解法是:用 MLLM 為每個訓練樣本生成屬性列表,再計算查詢屬性與候選項屬性之間的 BM25(詞彙相關性打分算法)分數;分數越高的候選在損失函數中的負例權重越大,確保硬負例獲得更大的訓練壓力。同時,若某候選的嵌入相似度超過正樣本一定邊距(margin 設為 0.4),則從批次負例池中移除,避免偽陰性帶來噪音梯度。
第二階段(RAR,檢索感知屬性強化):蒸餾階段的屬性生成器與最終檢索任務之間存在優化目標錯位。RAR 引入強化學習來橋接:把預訓練好的表示模型作為「獎勵環境」,以屬性增強後的查詢進行真實搜索,再用 Recall@k 分數直接作為獎勵,透過 GRPO(群組相對策略優化,一種省去 Critic 網路的高效 RL 算法)直接優化屬性生成策略。k 值對訓練效果敏感:k=10 獎勵稀疏、k=100 信號飽和,實驗確認 k=50 達到最佳學習效率。RAR 階段使用學習率 1e-6,僅需 350 步快速收斂。
| 階段 | 組件 | 核心機制 | 解決的問題 |
|---|---|---|---|
| Stage 1 | AGCL(屬性引導對比學習) | BM25 硬負例加權 + margin 偽陰性過濾 | InfoNCE 無法利用屬性信號、偽陰性錯誤懲罰 |
| Stage 2 | RAR(檢索感知屬性強化) | GRPO + Recall@50 直接獎勵信號 | 蒸餾目標與最終檢索任務的優化目標錯位 |
兩個階段解耦優化目標,互補解決對比學習與生成對齊的核心矛盾
Recall@1 達 54.28%,RL 訓練湧現「越訓越短」行為
細粒度實例檢索(Fine-Grained Instance Retrieval)要求屬性完全匹配才算正樣本,是本文最嚴苛的評估任務。主要結果顯示:引入蒸餾屬性生成器後,Recall@1 提升至 52.42%;進一步引入 RAR 強化學習策略後,達到 54.28%,在所有對比基準中最高。
RL 訓練過程中出現了有趣的湧現行為:屬性的平均生成長度持續縮短。這與數學推理類任務(「思考鏈越長越好」)截然相反——冗長或不相關的屬性在檢索中是噪音,直接拉低 Recall@k,策略模型因此被隱性地鼓勵生成「剛好足夠用」的最短屬性集。相比之下,AGCL 訓練曲線也展示出持續穩定的提升,而基準 VLM2Vec 則快速達到局部最優後停滯,說明 AGCL 透過聚焦有意義的負例,有效防止了模型過早過擬合。
RAR 強化學習在蒸餾生成器基礎上再提升約 1.86 個百分點
「對齊稅」效應與循環迭代訓練(CIT)的潛力
研究者誠實指出了方法的主要限制。在下游分類與聚類評估中(849,207 件商品、5,146 個類別),RL 訓練模型(π_RL)的泛化優勢比 SFT 模型更小——這是典型的「對齊稅(alignment tax)」現象:模型被高度特化為 Recall@k 目標後,廣泛任務所需的通用特徵表達能力有所退化。
論文同時展示了值得關注的後續方向——循環迭代訓練(CIT)。框架將屬性生成與表示學習解耦,使 RL 訓練完成的屬性生成器可以反饋回 AGCL 流程進行再訓練。實驗顯示,僅用 30% 的訓練樣本搭配 RL 生成的屬性做 AGCL,下游任務表現就明顯提升,這個自我強化的閉環值得大規模探索。
阿里用「屬性生成 → 對比學習 → RL 反饋」三段閉環解決電商細粒度搜圖,RL 的奇異副作用是讓模型自動學會說得更少、說得更準。