Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction

Jingyuan Li, Xiaoyi Jiang, Fukang Wen, Wei Liu, Renqian Luo, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

Neural CTMC 模型將馬可夫鏈拆解為跳躍時間與方向雙神經網路,以純均勻前向過程在 TinyStories 創下 ≤16.36 困惑度,打破遮罩擴散模型的統治地位。

  • 將反向轉移率矩陣解耦為「離開率」與「跳躍分佈」,分別對應並優化卜瓦松與類別 KL 散度。
  • 突破過往限制,成功採用純均勻前向過程,賦予模型在生成階段修正先前錯誤決策的能力。
  • 在 OWT 資料集且訓練預算相同下,32步採樣的困惑度達 258.8,領先主流 MDLM 達 2.1 倍。

在語言模型極度依賴自迴歸(Autoregressive)架構的當下,離散擴散模型(Discrete Diffusion)正開闢另一條全新路徑。最新研究提出的 Neural CTMC 模型,在 TinyStories 資料集上以 50 步採樣達成 ≤ 16.36 的生成困惑度(Perplexity),大幅超越現有主流遮罩方法的 37.60。這項突破並非依賴更大規模的硬體算力,而是回到基礎數學框架:將連續時間馬可夫鏈的狀態跳躍機制,拆解為「何時跳」與「往哪跳」兩個獨立的神經網路預測頭。

突破單一預測:將時間與方向解耦的離散擴散框架

連續領域的擴散模型(如驅動各大影像生成的底層技術)已經取得驚人成就,但將其物理機制延伸至離散資料(如自然語言、蛋白質序列、分子圖)卻充滿挑戰。現有的離散擴散模型多半建構在 CTMC(連續時間馬可夫鏈,一種描述離散狀態隨時間轉移的數學過程)上。然而,過去的方法如 SEDD、MDLM 或 GIDD,習慣將反向轉移率矩陣視為單一整體進行參數化,像是直接預測乾淨資料(clean-data predictions)或去噪分佈。

研究團隊點出一個常被忽略的事實:根據基礎機率論,任何馬可夫鏈的轉移矩陣在數學上都必然包含兩個獨立維度。第一個是控制等待時間的離開率(Exit rate),決定系統何時發生跳躍;第二個是控制目標狀態的跳躍分佈(Jump distribution),決定跳往哪個具體標記。傳統的 Gillespie 演算法早就在模擬化學動力學時利用了這種結構,但生成式 AI 領域卻未將其融入模型架構。Neural CTMC 的核心貢獻,正是為這兩個維度各自建立專屬的神經網路預測頭,讓模型參數與底層數學原理完美對齊。

ELBO 推導:卜瓦松與類別 KL 散度的雙軌優化

這個雙頭架構並非為了創新而創新,而是直接源於模型訓練目標的數學推演。研究證明,模型的 ELBO(證據下界,機器學習中用於近似資料真實分佈的優化函數),在扣除一個與模型參數無關的常數後,完全等同於真實反向過程與學習到的反向過程之間的路徑空間 KL 散度(Kullback-Leibler divergence)。

令人振奮的是,這個總體的 KL 散度能夠乾淨俐落地拆解為兩部分。針對跳躍時間的部分,對應的是卜瓦松 KL 散度(Poisson KL);針對跳躍方向的部分,對應的則是類別 KL 散度(Categorical KL)。這意味負責預測「何時跳」與「往哪跳」的兩個網路,能接收到完全獨立且精確的誤差梯度。團隊進一步證明,當這套雙軌數學框架套用在常見的遮罩前向過程時,會精準退化成現有的 MDLM 損失函數,這證實了 Neural CTMC 具備更為廣泛、處於第一性原理層級的理論包容性。

均勻前向過程:TinyStories 困惑度 16.36

在離散擴散的既有認知中,基於遮罩(Absorbing)的前向過程佔據絕對的主流地位,也就是將文字逐步替換為特定的掩碼標記。這種設計雖然較易訓練,但一旦標記轉為遮罩狀態,就無法再探索其他可能,導致模型在生成階段無法回頭修正先前的決策。相對地,均勻前向過程(Uniform forward process)允許在所有標記狀態間自由跳轉,雖具備修正潛力,但因狀態空間過於龐雜,過去往往只能產出較差的生成品質。

Neural CTMC 打破了這項限制,成為首個以純均勻前向過程超越遮罩方法的模型。在 TinyStories 語言建模測試中,給定相同的架構與訓練運算量,Neural CTMC 無論使用哪種採樣器,都在訓練的第 10 個 Epoch 後與競爭對手拉開顯著差距。最終在 50 步生成時創下 ≤ 16.36 的困惑度;作為對照,相同預算下的 GIDD 僅有 ≤ 37.60,MDLM 為 ≤ 42.66

OWT 基準測試:32步採樣困惑度領先 2.1 倍

為驗證該架構在大規模資料上的泛化能力,研究人員導入涵蓋範圍更廣的 OpenWebText (OWT) 資料集,並比較了訓練標記預算同為 2620 億(262B)的模型。數據顯示,Neural CTMC 在 16 到 128 步的採樣區間內,全面擊退同級的 MDLM 與 GIDD。

這項優勢在需要高效率的「少步數採樣」時尤為極端。在 32 步採樣下,Neural CTMC 取得了 ≤ 258.8 的困惑度,遠遠勝過 MDLM 的 ≤ 553.7(差距達 2.1 倍)與 GIDD 的 ≤ 398.9。即便是面對耗費 6820 億(682B)標記訓練的 SEDD 模型(訓練量大 2.6 倍),Neural CTMC 在 16 步與 32 步的低步數設定下依然能保持競爭優勢,證明了解耦參數化能在相同算力下榨出更高的學習效率。

生成階段採樣:$\tau$-Leaping 與 Euler 演算法

在完成雙頭網路的訓練後,生成階段需要將連續時間做離散化處理。研究團隊實作了兩種採樣機制:第一種是古典的 $\tau$-Leaping 演算法,系統會在單一步驟內,先根據離開率透過卜瓦松分佈算出「總跳躍次數」,再依序決定跳往哪些目標,這允許單一時間步內發生多次修正;第二種則是傳統的 Euler 演算法,透過將時間步長乘上離開率與跳躍分佈,建構出單步的轉移機率。在包含 MNIST 影像矩陣與自然語言文字的實驗中,兩者均能維持高度穩定的生成品質,徹底發揮了物理機制解耦所帶來的架構紅利。

透過將馬可夫鏈精準拆解為時間與方向雙軌預測,Neural CTMC 證明了純均勻離散擴散模型能在不無腦堆疊算力的前提下,於文字生成品質上跨越主流遮罩演算法的性能天花板。

Abstract

Discrete diffusion models based on continuous-time Markov chains (CTMCs) have shown strong performance on language and discrete data generation, yet existing approaches typically parameterize the reverse rate matrix as a single object -- via concrete scores, clean-data predictions ($x_0$-parameterization), or denoising distributions -- rather than aligning the parameterization with the intrinsic CTMC decomposition into jump timing and jump direction. Since a CTMC is fundamentally a Poisson process fully determined by these two quantities, decomposing along this structure is closer to first principles and naturally leads to our formulation. We propose \textbf{Neural CTMC}, which separately parameterizes the reverse process through an \emph{exit rate} (when to jump) and a \emph{jump distribution} (where to jump) using two dedicated network heads. We show that the evidence lower bound (ELBO) differs from a path-space KL divergence between the true and learned reverse processes by a $θ$-independent constant, so that the training objective is fully governed by the exit rate and jump distribution we parameterize. Moreover, this KL factorizes into a Poisson KL for timing and a categorical KL for direction. We further show that the tractable conditional surrogate preserves the gradients and minimizers of the corresponding marginal reverse-process objective under standard regularity assumptions. Our theoretical framework also covers masked and GIDD-style noise schedules. Empirically, while the uniform forward process has been explored in prior work, our model, to our best of the knowledge, is the first pure-uniform method to outperform mask-based methods on the OpenWebText dataset.To facilitate reproducibility, we release our pretrained weights at https://huggingface.co/Jiangxy1117/Neural-CTMC.