Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer
OpenMythos 證實:770M 參數的遞迴深度模型能匹敵 1.3B 傳統架構。
- 推理深度取決於推論期的迴圈迭代次數,而非模型儲存的訓練參數總量。
- 在連續潛在空間內進行遞迴,能避免生成離散 token 造成的資訊流失。
- 透過 LTI 穩定機制與自適應運算時間,解決深層迴圈引發的殘差爆炸。
Anthropic 從未對外公開 Claude Mythos 的技術細節,但全新開源專案 OpenMythos 透過 PyTorch 進行了理論重建。這套系統證實了僅需 770M 參數的遞迴架構,就能達到 1.3B 傳統模型的推理能力。
揚棄傳統堆疊的 RDT 運算架構
主流的語言模型(如 GPT 或 LLaMA)皆採用標準的 Transformer 堆疊結構。資料會依序通過一系列獨立的網路層,每一層都擁有專屬的權重矩陣。在這種設計邏輯下,提升模型能力的直接手段,通常就是增加更多的網路層與參數總數。
然而,OpenMythos 提出了一項根本上的假設:Claude Mythos 實際上屬於一種被稱為 RDT(遞迴深度 Transformer,或稱循環 Transformer) 的架構。這代表模型並非無止盡地堆疊新網路層,而是在單一前向傳播過程中,將一組固定的權重反覆套用高達 T=16 次。
在這種機制下,推理的「深度」不再取決於硬碟裡儲存了多少參數,而是由推論階段(inference time)執行的迭代次數來決定。模型的運作模式不再像從頭到尾翻閱一本書,而更接近於針對同一份草稿反覆進行編修,每一次迴圈都在優化內部的表徵狀態。
結合 DeepSeekMoE 與 MLA 的核心
在結構組成上,OpenMythos 將系統精煉為三個核心階段:Prelude(前奏)、Recurrent Block(循環區塊)與 Coda(尾奏)。前奏與尾奏是僅執行一次的標準網路層,循環區塊則是真正主導運算的核心樞紐。
為了避免隱藏狀態在深層迴圈中逐漸偏離原始的輸入訊號,系統在每一個迴圈步驟中,都會刻意將前奏所產生的編碼輸入重新注入。這項設計由特定的權重矩陣控制,精準調配了上一層狀態與原始輸入在每個步驟中的佔比。
在循環區塊的內部,傳統的前饋網路被替換為源自 DeepSeek 系統的 MoE(混合專家模型,依輸入動態啟動部分網路)。這項機制運用了大量細粒度的路由專家,每個 token 僅啟動極少數的最適合模組,同時保留一組永遠處於啟動狀態的共享專家,專門用來吸收跨領域的常見模式。最關鍵的是,路由器會在不同的迴圈深度選擇完全不同的專家組合,確保模型即使共用同一套基礎權重,每次迭代的運算結果依然具備高度獨立性。
此外,系統也導入了 DeepSeek-V2 的 MLA(多潛在注意力機制),透過快取高度壓縮的低秩潛在向量來取代龐大完整的鍵值(KV)張量,在生產環境中成功將記憶體消耗大幅降低了 10 到 20 倍。
連續潛在空間推理:超越 CoT 機制
這套架構最引人注目的屬性之一,在於推理過程完全發生在連續潛在空間(continuous latent space)中。模型在執行迴圈步驟的過程中,不會像傳統架構那樣中途輸出任何過渡性的字詞(token),免去了「中斷思考、輸出文字、再重新讀取」的耗損過程。
這種設計與傳統依賴外部字詞序列的 CoT(思維鏈提示,將推理過程外部化為字詞序列) 在基礎結構上有著本質上的不同。根據 2025 年最新學術研究的正式分析,RDT 內部的每一次迴圈迭代,在功能上完全等同於思維鏈的一個推論步驟,但它是運作於資訊密度更高的實數向量上。
連續的潛在思維空間賦予了模型更強大的彈性,使其能同時編碼多條可能的未來路徑。這代表模型能在單次前向傳播中,實現類似廣度優先搜尋(breadth-first search)的探索能力。這也解釋了遞迴模型面對困難問題時的核心優勢:一個只學過 5 步推理的標準模型面對 10 步的問題會直接崩潰,但 RDT 只要在推論時增加迴圈次數,無需任何重新訓練,就能讓困難問題獲得更多算力、簡單問題則及早得出結論。
導入 LTI 約束與 ACT 停止機制
歷史上,訓練這類循環模型的過程總是充滿不穩定性。隱藏狀態的數值往往會在多次迭代中無限制地膨脹,最終導致被稱為「殘差爆炸(residual explosion)」的系統失效。
為了徹底解決這個問題,OpenMythos 導入了源自 Parcae 架構的 LTI(線性非時變) 注入約束。這項設計從數學結構上保證了特定權重矩陣的譜半徑永遠小於 1,這意味著無論學習率設定為何、或是面臨何種梯度雜訊,模型都能保持絕對的訓練穩定性。
然而,迴圈結構同時面臨另一個極端的挑戰:當迴圈深度過度增加時,隱藏狀態可能會偏離最佳解答並陷入雜訊中,引發「過度思考」的效應。為此,系統加入了 ACT(自適應運算時間,動態決定何時停止運算) 停止機制。透過為每個位置配置學習純量,模型能自動判定特定 token 是否已經收斂並提早中斷迴圈,確保運算資源只集中在尚未解開的困難節點上。
最後,系統在每個迭代深度中嵌入了微小的 Depth-Wise LoRA(深度逐層低秩微調) 適配器。這項設計只增加了極少量的額外參數,卻賦予了每一個迴圈步驟微妙且獨特的行為特徵,完美彌合了「完全共用權重」與「採用獨立網路層」之間的技術鴻溝。
Parcae 實證:770M 參數匹敵 1.3B 模型
這套架構的效率宣稱並非空穴來風,2026 年發布的 Parcae 論文提供了堅實的實證數據。研究結果顯示,一個參數規模僅 770M 的 RDT 模型,在下游任務的表現上,完美匹敵了使用相同資料集訓練的 1.3B 標準 Transformer。
這份研究不僅達成了將近減半的參數需求,還確立了循環訓練領域首度出現的可預測縮放定律。資料證明,最佳的遞迴次數與 token 數量在不同的參數規模下,都一致地遵循著冪次法則(power laws)。
這項發現帶來了極為深遠的影響,它徹底重構了當前關於 AI 模型擴展的主流預設:推理能力的深度,應該隨著推論期(inference-time)投入的算力而擴展,而非受限於訓練期堆疊的參數總量。不論 Claude Mythos 本尊是否真為 RDT 架構,OpenMythos 專案都已經為開源社群提供了一個可執行的堅實基礎,證明了通往強大 AI 的道路,不只有「把模型變得更大」這個單一選項。
推理深度的擴展邊界,正逐漸從訓練期的參數規模,轉移至推論期的迴圈迭代算力。