Parcae 架構透過約束特徵值穩定層循環技術，僅用 7.7 億參數即達成 13 億參數 Transformer 品質。

AI 導讀 technology AI 重要性 4/5

Parcae 以 7.7 億參數展現 13 億參數 Transformer 效能，將驗證困惑度降低 6.3%。
將循環定義為線性非時變系統並強制譜半徑小於 1，徹底解決了模型訓練發散問題。
首創循環擴展定律，證實最佳運算效率需同步調整平均循環次數與訓練數據量。

Parcae 架構：以 7.7 億參數達成 13 億參數 Transformer 效能

在資源受限的終端設備上，降低模型記憶體佔用同時提升品質，已成為當前的重要挑戰。加州大學聖地牙哥分校與 Together AI 團隊共同提出了 Parcae，這是一種穩定的循環語言模型（looped language model）架構。研究顯示，高達 7.7 億參數的 Parcae 模型，在相同訓練數據下，其效能可媲美 13 億參數的傳統 Transformer 模型，達成以近乎一半的參數規模實現同等品質。

傳統的擴展定律（scaling laws）通常依賴增加運算量（FLOPs）、參數或數據量來提升效能。但隨著模型邊緣化與推論成本飆升，透過將特徵重複輸入相同神經網路層來增加運算量的「層循環（layer looping）」技術，成為一項具潛力的解方。然而，過去的循環模型在訓練時極不穩定，常面臨殘差狀態爆炸與損失值突波等問題。

突破訓練不穩定性：線性時變動態系統的約束

為了找出過去循環模型不穩定的原因，研究團隊將循環過程重新定義為殘差流上的非線性時變動態系統。當忽略注意力機制與多層感知機（MLP）等非線性因素時，該系統可視為跨模型深度的離散線性非時變（LTI）系統。在此框架下，系統的穩定性取決於特徵注入矩陣的特徵值（eigenvalues）。

實證數據證實了這項分析的準確度：訓練發散的模型，其譜半徑（spectral radius）大於或等於 1，而成功收斂的模型則小於 1。基於此發現，Parcae 在設計上透過連續公式將輸入注入參數參數化，並限制其為負對角矩陣。這項機制強制系統的譜半徑永遠小於 1，從根本上解決了訓練時的不穩定性，讓超參數的選擇變得更具彈性。

驗證困惑度降低 6.3%，確立循環擴展定律

除了穩定性大幅提升，Parcae 的生成品質也超越了先前的循環架構。在與前代技術 RDM（Recurrent Depth Models）的直接對比中，參數與數據量相同的 Parcae 模型，將驗證困惑度（validation perplexity）降低了高達 6.3%。即使在未經超參數微調的情況下，將強大的 Transformer 基準直接改裝為 RDM 會導致發散，但導入 Parcae 約束條件後，模型便能順利收斂並產出優異表現。

研究團隊更進一步探討了循環機制的運算效率，並首度確立了循環擴展定律（scaling laws for looping）。在固定的參數與運算量預算下，增加訓練時的平均循環次數並相應減少訓練數據量，所得到的驗證損失會低於僅使用低循環次數但大量數據的訓練方式。這證實了要達到最佳運算效率，必須將循環次數與數據量進行同步縮放。

釋出開源資源，探索參數效率的未來潛力

以羅馬神話中掌管命運三女神為名的 Parcae，將模型結構分為三個功能區塊：負責初始化的前奏（Prelude）、負責迭代的循環（Recurrent），以及負責產出最終結果的尾聲（Coda）。這套設計不僅在驗證損失上創造了更嚴格的帕雷托前緣（Pareto Frontier），更在下游任務中展現了超越固定深度模型的實質效益。

面對日益增長的推論記憶體成本，層循環等參數重複使用技術展現了極大的發展潛力。為了加速相關研究，團隊已釋出 Parcae 的訓練程式碼與模型權重。這項突破為記憶體受限環境下的高效能 AI 部署，開啟了全新的技術路徑。

透過嚴格的特徵值約束來穩定神經網路層循環，Parcae 證明了用時間換取空間策略在語言模型架構中的可行性與高效率。

Abstract

Parcae is one of the first stable architectures for looped language models. It achieves the quality of a Transformer twice the size with clean, predictable training. Parcae increases the recurrence rather than purely scaling data, creating a new medium to scale quality. The name Parcae is a homage to the three Roman fates: Nona, Decima, and Morta.

Parcae: Doing more with fewer parameters using stable looped models (6 minute read)

Parcae 架構：以 7.7 億參數達成 13 億參數 Transformer 效能

突破訓練不穩定性：線性時變動態系統的約束

驗證困惑度降低 6.3%，確立循環擴展定律

釋出開源資源，探索參數效率的未來潛力

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。