arXiv Full Text 2026-04-17

Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction

Jingyuan Li, Xiaoyi Jiang, Fukang Wen, Wei Liu, Renqian Luo, et al.

AI 導讀 technology AI 重要性 4/5

Neural CTMC 模型將馬可夫鏈拆解為跳躍時間與方向雙神經網路，以純均勻前向過程在 TinyStories 創下 ≤16.36 困惑度，打破遮罩擴散模型的統治地位。

將反向轉移率矩陣解耦為「離開率」與「跳躍分佈」，分別對應並優化卜瓦松與類別 KL 散度。
突破過往限制，成功採用純均勻前向過程，賦予模型在生成階段修正先前錯誤決策的能力。
在 OWT 資料集且訓練預算相同下，32步採樣的困惑度達 258.8，領先主流 MDLM 達 2.1 倍。

在語言模型極度依賴自迴歸（Autoregressive）架構的當下，離散擴散模型（Discrete Diffusion）正開闢另一條全新路徑。最新研究提出的 Neural CTMC 模型，在 TinyStories 資料集上以 50 步採樣達成 ≤ 16.36 的生成困惑度（Perplexity），大幅超越現有主流遮罩方法的 37.60。這項突破並非依賴更大規模的硬體算力，而是回到基礎數學框架：將連續時間馬可夫鏈的狀態跳躍機制，拆解為「何時跳」與「往哪跳」兩個獨立的神經網路預測頭。

突破單一預測：將時間與方向解耦的離散擴散框架

連續領域的擴散模型（如驅動各大影像生成的底層技術）已經取得驚人成就，但將其物理機制延伸至離散資料（如自然語言、蛋白質序列、分子圖）卻充滿挑戰。現有的離散擴散模型多半建構在 CTMC（連續時間馬可夫鏈，一種描述離散狀態隨時間轉移的數學過程）上。然而，過去的方法如 SEDD、MDLM 或 GIDD，習慣將反向轉移率矩陣視為單一整體進行參數化，像是直接預測乾淨資料（clean-data predictions）或去噪分佈。

研究團隊點出一個常被忽略的事實：根據基礎機率論，任何馬可夫鏈的轉移矩陣在數學上都必然包含兩個獨立維度。第一個是控制等待時間的離開率（Exit rate），決定系統何時發生跳躍；第二個是控制目標狀態的跳躍分佈（Jump distribution），決定跳往哪個具體標記。傳統的 Gillespie 演算法早就在模擬化學動力學時利用了這種結構，但生成式 AI 領域卻未將其融入模型架構。Neural CTMC 的核心貢獻，正是為這兩個維度各自建立專屬的神經網路預測頭，讓模型參數與底層數學原理完美對齊。

ELBO 推導：卜瓦松與類別 KL 散度的雙軌優化

這個雙頭架構並非為了創新而創新，而是直接源於模型訓練目標的數學推演。研究證明，模型的 ELBO（證據下界，機器學習中用於近似資料真實分佈的優化函數），在扣除一個與模型參數無關的常數後，完全等同於真實反向過程與學習到的反向過程之間的路徑空間 KL 散度（Kullback-Leibler divergence）。

令人振奮的是，這個總體的 KL 散度能夠乾淨俐落地拆解為兩部分。針對跳躍時間的部分，對應的是卜瓦松 KL 散度（Poisson KL）；針對跳躍方向的部分，對應的則是類別 KL 散度（Categorical KL）。這意味負責預測「何時跳」與「往哪跳」的兩個網路，能接收到完全獨立且精確的誤差梯度。團隊進一步證明，當這套雙軌數學框架套用在常見的遮罩前向過程時，會精準退化成現有的 MDLM 損失函數，這證實了 Neural CTMC 具備更為廣泛、處於第一性原理層級的理論包容性。

均勻前向過程：TinyStories 困惑度 16.36

在離散擴散的既有認知中，基於遮罩（Absorbing）的前向過程佔據絕對的主流地位，也就是將文字逐步替換為特定的掩碼標記。這種設計雖然較易訓練，但一旦標記轉為遮罩狀態，就無法再探索其他可能，導致模型在生成階段無法回頭修正先前的決策。相對地，均勻前向過程（Uniform forward process）允許在所有標記狀態間自由跳轉，雖具備修正潛力，但因狀態空間過於龐雜，過去往往只能產出較差的生成品質。

Neural CTMC 打破了這項限制，成為首個以純均勻前向過程超越遮罩方法的模型。在 TinyStories 語言建模測試中，給定相同的架構與訓練運算量，Neural CTMC 無論使用哪種採樣器，都在訓練的第 10 個 Epoch 後與競爭對手拉開顯著差距。最終在 50 步生成時創下 ≤ 16.36 的困惑度；作為對照，相同預算下的 GIDD 僅有 ≤ 37.60，MDLM 為 ≤ 42.66。

OWT 基準測試：32步採樣困惑度領先 2.1 倍

為驗證該架構在大規模資料上的泛化能力，研究人員導入涵蓋範圍更廣的 OpenWebText (OWT) 資料集，並比較了訓練標記預算同為 2620 億（262B）的模型。數據顯示，Neural CTMC 在 16 到 128 步的採樣區間內，全面擊退同級的 MDLM 與 GIDD。

這項優勢在需要高效率的「少步數採樣」時尤為極端。在 32 步採樣下，Neural CTMC 取得了 ≤ 258.8 的困惑度，遠遠勝過 MDLM 的 ≤ 553.7（差距達 2.1 倍）與 GIDD 的 ≤ 398.9。即便是面對耗費 6820 億（682B）標記訓練的 SEDD 模型（訓練量大 2.6 倍），Neural CTMC 在 16 步與 32 步的低步數設定下依然能保持競爭優勢，證明了解耦參數化能在相同算力下榨出更高的學習效率。

生成階段採樣：$\tau$-Leaping 與 Euler 演算法

在完成雙頭網路的訓練後，生成階段需要將連續時間做離散化處理。研究團隊實作了兩種採樣機制：第一種是古典的 $\tau$-Leaping 演算法，系統會在單一步驟內，先根據離開率透過卜瓦松分佈算出「總跳躍次數」，再依序決定跳往哪些目標，這允許單一時間步內發生多次修正；第二種則是傳統的 Euler 演算法，透過將時間步長乘上離開率與跳躍分佈，建構出單步的轉移機率。在包含 MNIST 影像矩陣與自然語言文字的實驗中，兩者均能維持高度穩定的生成品質，徹底發揮了物理機制解耦所帶來的架構紅利。

透過將馬可夫鏈精準拆解為時間與方向雙軌預測，Neural CTMC 證明了純均勻離散擴散模型能在不無腦堆疊算力的前提下，於文字生成品質上跨越主流遮罩演算法的性能天花板。

Abstract

Discrete diffusion models based on continuous-time Markov chains (CTMCs) have shown strong performance on language and discrete data generation, yet existing approaches typically parameterize the reverse rate matrix as a single object -- via concrete scores, clean-data predictions ($x_0$-parameterization), or denoising distributions -- rather than aligning the parameterization with the intrinsic CTMC decomposition into jump timing and jump direction. Since a CTMC is fundamentally a Poisson process fully determined by these two quantities, decomposing along this structure is closer to first principles and naturally leads to our formulation. We propose \textbf{Neural CTMC}, which separately parameterizes the reverse process through an \emph{exit rate} (when to jump) and a \emph{jump distribution} (where to jump) using two dedicated network heads. We show that the evidence lower bound (ELBO) differs from a path-space KL divergence between the true and learned reverse processes by a $θ$-independent constant, so that the training objective is fully governed by the exit rate and jump distribution we parameterize. Moreover, this KL factorizes into a Poisson KL for timing and a categorical KL for direction. We further show that the tractable conditional surrogate preserves the gradients and minimizers of the corresponding marginal reverse-process objective under standard regularity assumptions. Our theoretical framework also covers masked and GIDD-style noise schedules. Empirically, while the uniform forward process has been explored in prior work, our model, to our best of the knowledge, is the first pure-uniform method to outperform mask-based methods on the OpenWebText dataset.To facilitate reproducibility, we release our pretrained weights at https://huggingface.co/Jiangxy1117/Neural-CTMC.

Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction

突破單一預測：將時間與方向解耦的離散擴散框架

ELBO 推導：卜瓦松與類別 KL 散度的雙軌優化

均勻前向過程：TinyStories 困惑度 16.36

OWT 基準測試：32步採樣困惑度領先 2.1 倍

生成階段採樣：$\tau$-Leaping 與 Euler 演算法

Abstract

🔗 相關推薦

僅 25.3M 參數，SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。

僅需不到 300 參數，量子增強模型即達成大模型準確率，提升百倍效率。

SSFT 模型僅用 51.6 萬參數，不到前代基準 2% 的體積，即在三大高光譜影像分類測試中奪得最高總分。