OpenMythos 證實：770M 參數的遞迴深度模型能匹敵 1.3B 傳統架構。

AI 導讀 technology AI 重要性 4/5

推理深度取決於推論期的迴圈迭代次數，而非模型儲存的訓練參數總量。
在連續潛在空間內進行遞迴，能避免生成離散 token 造成的資訊流失。
透過 LTI 穩定機制與自適應運算時間，解決深層迴圈引發的殘差爆炸。

Anthropic 從未對外公開 Claude Mythos 的技術細節，但全新開源專案 OpenMythos 透過 PyTorch 進行了理論重建。這套系統證實了僅需 770M 參數的遞迴架構，就能達到 1.3B 傳統模型的推理能力。

揚棄傳統堆疊的 RDT 運算架構

主流的語言模型（如 GPT 或 LLaMA）皆採用標準的 Transformer 堆疊結構。資料會依序通過一系列獨立的網路層，每一層都擁有專屬的權重矩陣。在這種設計邏輯下，提升模型能力的直接手段，通常就是增加更多的網路層與參數總數。

然而，OpenMythos 提出了一項根本上的假設：Claude Mythos 實際上屬於一種被稱為 RDT（遞迴深度 Transformer，或稱循環 Transformer） 的架構。這代表模型並非無止盡地堆疊新網路層，而是在單一前向傳播過程中，將一組固定的權重反覆套用高達 T=16 次。

在這種機制下，推理的「深度」不再取決於硬碟裡儲存了多少參數，而是由推論階段（inference time）執行的迭代次數來決定。模型的運作模式不再像從頭到尾翻閱一本書，而更接近於針對同一份草稿反覆進行編修，每一次迴圈都在優化內部的表徵狀態。

結合 DeepSeekMoE 與 MLA 的核心

在結構組成上，OpenMythos 將系統精煉為三個核心階段：Prelude（前奏）、Recurrent Block（循環區塊）與 Coda（尾奏）。前奏與尾奏是僅執行一次的標準網路層，循環區塊則是真正主導運算的核心樞紐。

為了避免隱藏狀態在深層迴圈中逐漸偏離原始的輸入訊號，系統在每一個迴圈步驟中，都會刻意將前奏所產生的編碼輸入重新注入。這項設計由特定的權重矩陣控制，精準調配了上一層狀態與原始輸入在每個步驟中的佔比。

在循環區塊的內部，傳統的前饋網路被替換為源自 DeepSeek 系統的 MoE（混合專家模型，依輸入動態啟動部分網路）。這項機制運用了大量細粒度的路由專家，每個 token 僅啟動極少數的最適合模組，同時保留一組永遠處於啟動狀態的共享專家，專門用來吸收跨領域的常見模式。最關鍵的是，路由器會在不同的迴圈深度選擇完全不同的專家組合，確保模型即使共用同一套基礎權重，每次迭代的運算結果依然具備高度獨立性。

此外，系統也導入了 DeepSeek-V2 的 MLA（多潛在注意力機制），透過快取高度壓縮的低秩潛在向量來取代龐大完整的鍵值（KV）張量，在生產環境中成功將記憶體消耗大幅降低了 10 到 20 倍。

連續潛在空間推理：超越 CoT 機制

這套架構最引人注目的屬性之一，在於推理過程完全發生在連續潛在空間（continuous latent space）中。模型在執行迴圈步驟的過程中，不會像傳統架構那樣中途輸出任何過渡性的字詞（token），免去了「中斷思考、輸出文字、再重新讀取」的耗損過程。

這種設計與傳統依賴外部字詞序列的 CoT（思維鏈提示，將推理過程外部化為字詞序列） 在基礎結構上有著本質上的不同。根據 2025 年最新學術研究的正式分析，RDT 內部的每一次迴圈迭代，在功能上完全等同於思維鏈的一個推論步驟，但它是運作於資訊密度更高的實數向量上。

連續的潛在思維空間賦予了模型更強大的彈性，使其能同時編碼多條可能的未來路徑。這代表模型能在單次前向傳播中，實現類似廣度優先搜尋（breadth-first search）的探索能力。這也解釋了遞迴模型面對困難問題時的核心優勢：一個只學過 5 步推理的標準模型面對 10 步的問題會直接崩潰，但 RDT 只要在推論時增加迴圈次數，無需任何重新訓練，就能讓困難問題獲得更多算力、簡單問題則及早得出結論。

導入 LTI 約束與 ACT 停止機制

歷史上，訓練這類循環模型的過程總是充滿不穩定性。隱藏狀態的數值往往會在多次迭代中無限制地膨脹，最終導致被稱為「殘差爆炸（residual explosion）」的系統失效。

為了徹底解決這個問題，OpenMythos 導入了源自 Parcae 架構的 LTI（線性非時變） 注入約束。這項設計從數學結構上保證了特定權重矩陣的譜半徑永遠小於 1，這意味著無論學習率設定為何、或是面臨何種梯度雜訊，模型都能保持絕對的訓練穩定性。

然而，迴圈結構同時面臨另一個極端的挑戰：當迴圈深度過度增加時，隱藏狀態可能會偏離最佳解答並陷入雜訊中，引發「過度思考」的效應。為此，系統加入了 ACT（自適應運算時間，動態決定何時停止運算） 停止機制。透過為每個位置配置學習純量，模型能自動判定特定 token 是否已經收斂並提早中斷迴圈，確保運算資源只集中在尚未解開的困難節點上。

最後，系統在每個迭代深度中嵌入了微小的 Depth-Wise LoRA（深度逐層低秩微調） 適配器。這項設計只增加了極少量的額外參數，卻賦予了每一個迴圈步驟微妙且獨特的行為特徵，完美彌合了「完全共用權重」與「採用獨立網路層」之間的技術鴻溝。

Parcae 實證：770M 參數匹敵 1.3B 模型

這套架構的效率宣稱並非空穴來風，2026 年發布的 Parcae 論文提供了堅實的實證數據。研究結果顯示，一個參數規模僅 770M 的 RDT 模型，在下游任務的表現上，完美匹敵了使用相同資料集訓練的 1.3B 標準 Transformer。

這份研究不僅達成了將近減半的參數需求，還確立了循環訓練領域首度出現的可預測縮放定律。資料證明，最佳的遞迴次數與 token 數量在不同的參數規模下，都一致地遵循著冪次法則（power laws）。

這項發現帶來了極為深遠的影響，它徹底重構了當前關於 AI 模型擴展的主流預設：推理能力的深度，應該隨著推論期（inference-time）投入的算力而擴展，而非受限於訓練期堆疊的參數總量。不論 Claude Mythos 本尊是否真為 RDT 架構，OpenMythos 專案都已經為開源社群提供了一個可執行的堅實基礎，證明了通往強大 AI 的道路，不只有「把模型變得更大」這個單一選項。

推理深度的擴展邊界，正逐漸從訓練期的參數規模，轉移至推論期的迴圈迭代算力。

Abstract

Anthropic has never published a technical paper on Claude Mythos. That has not stopped the research community from theorizing. A new open-source project called OpenMythos, released on GitHub by Kye Gomez, attempts something ambitious: a first-principles theoretical reconstruction of what the Claude Mythos architecture might actually be, built entirely in PyTorch and grounded in peer-reviewed […] The post Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer appeared first on MarkTechPost.

Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer

揚棄傳統堆疊的 RDT 運算架構

結合 DeepSeekMoE 與 MLA 的核心

連續潛在空間推理：超越 CoT 機制

導入 LTI 約束與 ACT 停止機制

Parcae 實證：770M 參數匹敵 1.3B 模型

Abstract

🔗 相關推薦

僅 25.3M 參數，SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。

僅需不到 300 參數，量子增強模型即達成大模型準確率，提升百倍效率。

SSFT 模型僅用 51.6 萬參數，不到前代基準 2% 的體積，即在三大高光譜影像分類測試中奪得最高總分。