On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

Yusheng Huang, Shuang Yang, Zhaojie Liu, Han Li

View Original ↗
AI 導讀 technology AI 重要性 4/5

快手科技證實生成式推薦系統的 AR-NTP 機制在數學上嚴格等同於全詞表 MLE,成功將 $O(V)$ 複雜度降至 $O(k \cdot V_m)$。

  • 在滿足雙射映射前提下,k-Token 自迴歸預測與全物品詞表最大似然估計完全等價。
  • AR-NTP 範式能將高達 10 億物品的運算複雜度,縮減至 8192 規模的 Token 碼表運算。
  • 此數學等價性不僅適用於傳統級聯分詞,亦支援近期興起的並行分詞架構。

快手科技(Kuaishou Technology)的研究團隊近期發布論文,嚴格證明了在面臨 $10^6$ 到 $10^9$ 級別候選物品的大規模生成式推薦系統中,自迴歸下一個 Token 預測與全物品詞表最大似然估計在數學上具備嚴格的等價關係。這份研究解開了業界長期的疑惑,為當前主流的生成式推薦範式提供了首個正式的理論基礎。

百萬級別生成式推薦系統的理論真空

生成式推薦(Generative recommendation, GR)近年在序列推薦領域快速崛起,並已在多個工業級系統中部署。例如 OneRec、OneLive 以及 DOS 等架構,都在商業指標上獲得顯著提升。自從 Tiger 模型問世後,主流的生成式推薦逐漸收斂至一套標準化流程:透過語義 ID 建立索引、使用下一個 Token 預測(Next-token prediction, NTP)作為訓練目標,並在推論階段透過自迴歸解碼生成目標推薦物。

然而,現有的生成式推薦研究大多聚焦於模型架構設計與經驗性的效能最佳化,極少針對 AR-NTP 在推薦場景下的運作機制提供嚴謹的解釋。自然語言處理領域近期已有研究證明 AR-NTP 模型是通用函數學習器,並將現代大型語言模型(LLM)的強大泛化能力歸功於此訓練機制。但在推薦系統領域,儘管有研究透過實驗證實生成式推薦的優勢源自更好的泛化能力,卻始終缺乏從系統層面出發的數學論證。

為填補這塊知識拼圖,快手團隊試圖解答一個核心問題:在業界被廣泛採用的 NTP 範式,其底層本質究竟為何?研究人員建立了一個極具理論依據的基準:全物品詞表最大似然估計(Full-item-vocabulary MLE, FV-MLE)。在統計學中,最大似然估計是擬合模型分佈與觀測數據的標準,具備嚴格證明的漸進特性。

雙射映射下 AR-NTP 與全詞表 MLE 的等價證明

該論文的核心貢獻在於提出並證明了一項定理:在滿足特定前提下,k 個 Token 的 AR-NTP 負對數似然損失(NLL loss)與 FV-MLE 的損失函數完全相等。這個結論成立的唯一核心前提,在於候選物品與其對應的 k-Token 序列之間必須存在雙射映射(Bijective mapping)。也就是說,每一個物品必須唯一對應一組 k-Token 序列,反之亦然。

推導過程從貝氏連鎖律出發。在自迴歸生成中,給定使用者上下文條件下,生成目標物品的聯合機率可以被拆解為 k 個 Token 條件機率的乘積。研究人員將 Token 層級的全碼表 Softmax 函數代入乘積中,利用指數相乘等於指數相加的特性,成功將分子合併為物品層級的聯合 Logit 函數。

接下來的環節在於證明分母的等價性。透過將 k 個 Token 層級的配分函數(Partition function)乘積展開並應用分配律,可以將其轉化為對所有合法 k-Token 序列的總和。基於雙射映射的假設,對所有合法序列求和,在數學上精準等同於對全物品詞表進行求和。這意味著當模型以 AR-NTP 方式訓練時,本質上就是在進行全物品詞表的最大似然估計。

將 O(V) 複雜度驟降至 O(k·Vm) 的工業價值

這項數學證明不僅釐清了理論,更直接點出了生成式推薦系統為何能在實務界取得巨大成功的根本原因。傳統的 FV-MLE 雖然在理論上是最優的分布擬合標準,但其在計算上需要對整個物品詞表進行完整的 Softmax 正規化操作。對於工業級系統而言,總物品數 V 通常高達 $10^6$ 到 $10^9$,這種 $O(V)$ 的計算複雜度根本無法落地。

相對地,k-Token AR-NTP 範式巧妙地將全物品 Softmax 拆解為 k 次連續的 Token 層級運算。每次運算的複雜度僅取決於該位置的 Token 碼表大小 $V_m$。在目前的業界實踐中,$V_m$ 的大小通常設定在 256 到 8192 之間。因此,整體的計算複雜度被大幅壓縮至 $O(k \cdot V_m)$,遠低於原本的全詞表運算量。

最重要的是,根據團隊的等價性定理,這種計算複雜度的巨幅降低並未以犧牲理論最佳性為代價。只要系統的分詞設計能夠保證物品與序列間的雙射映射,AR-NTP 就能在享有極高計算效率的同時,達到與 FV-MLE 完全相同的優化效果。這賦予了工程師在設計大規模推薦架構時強大的理論後盾。

級聯與並行分詞架構下的等價推論與未來方向

為了讓理論更貼近實際應用,研究人員進一步探討了定理在兩種主流分詞方案中的適用性。首先是級聯分詞(Cascaded tokenization),這類基於殘差量化的方法長期以來是生成式推薦的標準實踐。在此架構下,第 m 個 Token 的生成會依賴所有前置 Token,這完全符合貝氏連鎖律的條件機率形式,因此等價性定理直接適用。

另一種則是近期興起的並行分詞(Parallel tokenization),該方案能支援多 Token 同時預測以加速解碼。在並行分詞中,各個 Token 碼表之間相互獨立。研究證明,並行分詞可視為自迴歸拆解的一種特例,其獨立條件機率同樣滿足連鎖律規則,最終的物品層級機率也與 FV-MLE 一致。

確認了理論的普適性後,論文也指出一項實務風險:如果量化演算法品質不佳,可能導致碼表崩塌或高碰撞率,進而破壞數學上的雙射映射前提。部分系統已採用有限純量量化(FSQ)來確保無碰撞對應。團隊計畫未來將分析雙射映射破裂時的效能邊界,以量化分詞品質對系統表現的具體影響。

自迴歸預測等同全詞表最佳化,確保分詞演算法的雙射映射是維持生成式推薦效能的理論底線。

Abstract

Generative recommendation (GR) has emerged as a widely adopted paradigm in industrial sequential recommendation. Current GR systems follow a similar pipeline: tokenization for item indexing, next-token prediction as the training objective and auto-regressive decoding for next-item generation. However, existing GR research mainly focuses on architecture design and empirical performance optimization, with few rigorous theoretical explanations for the working mechanism of auto-regressive next-token prediction in recommendation scenarios. In this work, we formally prove that \textbf{the k-token auto-regressive next-token prediction (AR-NTP) paradigm is strictly mathematically equivalent to full-item-vocabulary maximum likelihood estimation (FV-MLE)}, under the core premise of a bijective mapping between items and their corresponding k-token sequences. We further show that this equivalence holds for both cascaded and parallel tokenizations, the two most widely used schemes in industrial GR systems. Our result provides the first formal theoretical foundation for the dominant industrial GR paradigm, and offers principled guidance for future GR system optimization.