Parcae: Doing more with fewer parameters using stable looped models (6 minute read)

View Original ↗
AI 導讀 technology AI 重要性 4/5

Parcae 架構透過約束特徵值穩定層循環技術,僅用 7.7 億參數即達成 13 億參數 Transformer 品質。

  • Parcae 以 7.7 億參數展現 13 億參數 Transformer 效能,將驗證困惑度降低 6.3%。
  • 將循環定義為線性非時變系統並強制譜半徑小於 1,徹底解決了模型訓練發散問題。
  • 首創循環擴展定律,證實最佳運算效率需同步調整平均循環次數與訓練數據量。

Parcae 架構:以 7.7 億參數達成 13 億參數 Transformer 效能

在資源受限的終端設備上,降低模型記憶體佔用同時提升品質,已成為當前的重要挑戰。加州大學聖地牙哥分校與 Together AI 團隊共同提出了 Parcae,這是一種穩定的循環語言模型(looped language model)架構。研究顯示,高達 7.7 億參數的 Parcae 模型,在相同訓練數據下,其效能可媲美 13 億參數的傳統 Transformer 模型,達成以近乎一半的參數規模實現同等品質。

傳統的擴展定律(scaling laws)通常依賴增加運算量(FLOPs)、參數或數據量來提升效能。但隨著模型邊緣化與推論成本飆升,透過將特徵重複輸入相同神經網路層來增加運算量的「層循環(layer looping)」技術,成為一項具潛力的解方。然而,過去的循環模型在訓練時極不穩定,常面臨殘差狀態爆炸與損失值突波等問題。

突破訓練不穩定性:線性時變動態系統的約束

為了找出過去循環模型不穩定的原因,研究團隊將循環過程重新定義為殘差流上的非線性時變動態系統。當忽略注意力機制與多層感知機(MLP)等非線性因素時,該系統可視為跨模型深度的離散線性非時變(LTI)系統。在此框架下,系統的穩定性取決於特徵注入矩陣的特徵值(eigenvalues)

實證數據證實了這項分析的準確度:訓練發散的模型,其譜半徑(spectral radius)大於或等於 1,而成功收斂的模型則小於 1。基於此發現,Parcae 在設計上透過連續公式將輸入注入參數參數化,並限制其為負對角矩陣。這項機制強制系統的譜半徑永遠小於 1,從根本上解決了訓練時的不穩定性,讓超參數的選擇變得更具彈性。

驗證困惑度降低 6.3%,確立循環擴展定律

除了穩定性大幅提升,Parcae 的生成品質也超越了先前的循環架構。在與前代技術 RDM(Recurrent Depth Models)的直接對比中,參數與數據量相同的 Parcae 模型,將驗證困惑度(validation perplexity)降低了高達 6.3%。即使在未經超參數微調的情況下,將強大的 Transformer 基準直接改裝為 RDM 會導致發散,但導入 Parcae 約束條件後,模型便能順利收斂並產出優異表現。

研究團隊更進一步探討了循環機制的運算效率,並首度確立了循環擴展定律(scaling laws for looping)。在固定的參數與運算量預算下,增加訓練時的平均循環次數並相應減少訓練數據量,所得到的驗證損失會低於僅使用低循環次數但大量數據的訓練方式。這證實了要達到最佳運算效率,必須將循環次數與數據量進行同步縮放。

釋出開源資源,探索參數效率的未來潛力

以羅馬神話中掌管命運三女神為名的 Parcae,將模型結構分為三個功能區塊:負責初始化的前奏(Prelude)、負責迭代的循環(Recurrent),以及負責產出最終結果的尾聲(Coda)。這套設計不僅在驗證損失上創造了更嚴格的帕雷托前緣(Pareto Frontier),更在下游任務中展現了超越固定深度模型的實質效益。

面對日益增長的推論記憶體成本,層循環等參數重複使用技術展現了極大的發展潛力。為了加速相關研究,團隊已釋出 Parcae 的訓練程式碼與模型權重。這項突破為記憶體受限環境下的高效能 AI 部署,開啟了全新的技術路徑。

透過嚴格的特徵值約束來穩定神經網路層循環,Parcae 證明了用時間換取空間策略在語言模型架構中的可行性與高效率。

Abstract

Parcae is one of the first stable architectures for looped language models. It achieves the quality of a Transformer twice the size with clean, predictable training. Parcae increases the recurrence rather than purely scaling data, creating a new medium to scale quality. The name Parcae is a homage to the three Roman fates: Nona, Decima, and Morta.