Opus百萬Token僅25美元，預訓練硬體除錯與通訊極限決定AI模型成敗。

AI 導讀 technology AI 重要性 4/5

隱藏思維鏈無效，用戶操作的黃金差異已成為強化學習的絕佳目標。
FP16問題曾重創GPT-4，數值偏差嚴重干擾模型預訓練。
FSDP解決記憶體瓶頸，擴充叢集卻遭遇通訊時間無法縮短的極限。

提取Opus 4.6模型1兆Token僅需2500萬美元，實驗室隱藏思維鏈以阻擋低成本蒸餾的防線正岌岌可危。本文彙整模型蒸餾防禦、打破因果引發的預訓練失敗，及FSDP平行運算底層瓶頸。

1兆Token僅需2500萬美元的Opus模型蒸餾防禦

頂尖實驗室究竟能否阻止開源模型透過蒸餾技術快速追趕？以 Opus 4.6 版本的 API 定價為例，每百萬 Token 僅需 25 美元，這意味著買下 1 兆個 Token 的輸出結果只要花費 2500 萬美元。對於擁有充沛資金的競爭者而言，這筆開銷幾乎微不足道。實驗室目前的主要防禦手段是隱藏模型的思維鏈，不讓用戶取得中間的推論過程。

然而這項防禦策略存在幾個明顯的漏洞。首先，思維鏈並非由特殊格式的 Token 組成，開發者完全可以透過提示詞要求模型直接給出答案，或是將思考過程寫入外部空間。其次，即使實驗室能完美隱藏思維鏈，外部工程師仍可將「重建推論路徑」設為 RLVR（具驗證獎勵的強化學習）的目標函數。這種方式雖然耗費較多算力，但技術上完全可行，讓開源陣營得以反向推導出前沿模型的內部邏輯。

真正在這波代理（Agentic）模型競爭中起關鍵作用的，其實是模型的工具操作能力。當模型在用戶本地端執行寫入程式碼、更新檔案或執行 Bash 指令時，這些動作根本無法被雲端隱藏。建立在模型 API 基礎上的產品開發商，也發展出另一種更強大的蒸餾模式。以程式編寫工具為例，當使用者經過數十次對話終於得到滿意的程式碼，這份「黃金差異（Gold Diff）」就能成為開發商訓練自有模型的強化學習目標，最終效能甚至可能超越底層的原始 API 模型。

打破因果與FP16精度如何摧毀GPT-4預訓練

訓練超大型 AI 模型充滿各種不確定性，其中「打破因果關係」與「引入偏差」是導致預訓練失敗的兩大主因。在混合專家模型（MoE）的路由機制中，通常由路由器計算每個 Token 對各專家的匹配分數。若採用傳統的 Token 路由（Token Routing），可能導致某些專家負載過重、效能大幅下降；若為了平衡負載改用專家選擇（Expert Choice）機制，強迫每個專家接收等量 Token，又會引發另一個問題。

強制分配的機制會打破自迴歸模型的因果關係。因為第 n 個 Token 被分配到哪個專家，會受到未來第 n+k 個 Token 的路由結果影響。這種做法會讓模型在訓練時接收到未來資訊，導致訓練與實際推論情境產生分歧。業界傳聞這正是 Llama 4 早期版本表現不如預期的關鍵原因。此外，如果專家為了避免運算溢出而丟棄部分 Token，同樣會因為後續 Token 匹配度較高而排擠掉先前的 Token，據傳 Gemini 2 Pro 就曾遭遇此類運算異常。

相較於可以透過平均消除的變異數，數值偏差在訓練過程中會不斷複合放大。最初版 GPT-4 的訓練進度曾因為半精度浮點數（FP16）的運算錯誤而嚴重落後。在使用 All-reduce 這類集合通訊操作時，FP16 在數值超過 1024 後的間距會拉大；當模型嘗試將 1 累加一萬次時，數值卡在 1024 並不斷無效進位，導致最終計算的梯度誤差高達十倍。這類硬體底層的浮點數偏差極難除錯，也凸顯了 AI 基礎設施工程的脆弱性。

6ND公式與FSDP資料平行的通訊頻寬交叉點

評估模型預訓練算力的基礎公式為 6ND，代表每次前向與後向傳播中，每個 Token 對應每個參數約需 6 次浮點運算。由於單一 GPU 無法裝下龐大權重，最直覺的解法是資料平行（Data Parallelism），但即便是搭載 288GB 記憶體的 B300 晶片也無法負荷現代模型的參數與激勵值。為了解決記憶體極限，業界目前預設採用 FSDP（完全切片資料平行，Fully Sharded Data Parallel）。

運作 FSDP 時，每張 GPU 只儲存 N 分之一的層級權重，在計算該層前才透過 All-gather 收集完整參數，算完立刻丟棄。FSDP 之所以成為業界標準，是因為它能完美重疊運算與通訊時間；前一層在計算時，網路就可以開始傳輸下一層的權重。若搭配 Reduce-scatter 演算法最佳化梯度同步，讓梯度的分片只留在負責該分片的單一 GPU 上，FSDP 的通訊資料量僅比傳統資料平行高出 50%，卻能釋放極大量的記憶體空間。

儘管具備諸多優勢，FSDP 在無限制擴展 GPU 數量時仍會遭遇頻寬死亡交叉點。隨著 GPU 增加，分配到每張卡的運算時間會下降，但跨晶片通訊時間卻受限於網路拓樸架構無法等比例縮減。當 MFU（模型算力利用率）大幅衰退，或是單一序列長度超過切分極限時，工程團隊就必須導入管線平行（Pipeline Parallelism）。然而管線平行會帶來運算氣泡，並對特定注意力機制（如 Kimi 模型的 Attention-to-residuals）造成架構限制，進而拖慢研究迭代速度。

Mythos模型串聯漏洞與修補C語言的防禦難題

Anthropic 的網路安全模型 Mythos（或稱 Glasswing）展示了有別於以往的代理能力。過去的 AI 只能在程式碼中抓出單一的邊界檢查缺失，但 Mythos 足以串聯五個獨立漏洞來執行任意程式碼或提升權限。這種能力躍升並非單純因為模型變聰明，而是網路攻擊本質上就是組合數學的排列挑戰，大型語言模型剛好極度擅長窮舉並測試這些攻擊鏈。

從攻防平衡的角度來看，如果模型能協助發現潛伏在各系統中的零時差漏洞，整體軟體生態系在 2026 年底前理應變得更安全。然而資安專家的反向觀點指出，發現漏洞與修補漏洞的難度完全不在同一個量級。修補漏洞必須確保不會破壞既有功能、不會影響依賴特定邊緣行為的程式碼，這正是 LLM（大型語言模型）目前最不擅長的工作環節。

面對自動化攻擊的威脅，未來的防禦手段可能包含導入軟體形式化驗證，或是利用生成式 AI 大規模將 C 語言重構為具備記憶體安全的 Rust 語言。Anthropic 選擇在關鍵 IT 基礎設施修補完成前暫不公開此模型，引發了針對企業是否該私自掌握作業系統入侵能力的討論。即便加上安全過濾器，具備專業知識的攻擊者依然能把大型漏洞拆解成看似無害的小問題，輕鬆繞過分類器的監管。

Pipeline RL論文解決強化學習的GPU閒置問題

強化學習在推論階段的硬體利用率，往往面臨意想不到的工程挑戰。根據近期發表的 Pipeline RL 論文，隨著模型持續接受強化學習訓練，不僅回覆的平均長度會增加，生成長度的變異數也會跟著擴大。當模型遇到簡單問題時可能瞬間給出答案，面對複雜任務卻會吐出高達 10 萬個 Token。

不同長度的軌跡（Trajectories）混雜在同一個批次中，會導致嚴重的硬體閒置問題。運算叢集必須等待那些生成極長文字的掉隊者完成推論，才能推進到下一個訓練步驟。如果為了填補運算空檔而持續生成新的批次，這些跨步驟生成的資料將把模型推向離線強化學習的領域。因為後續步驟所使用的訓練軌跡，其實是由好幾個迭代前的舊版模型所生成的，這會導致模型學習效率低下。

為了解決這種模型版本偏移，Pipeline RL 提出了一種名為「飛行中權重更新（In-flight weight updates）」的架構。系統會在長文本生成到一半時，直接將底層的生成模型替換為剛剛完成訓練的最新版本。透過這項技術，所有短軌跡以及大部分長軌跡的後段內容，都會由最新版的模型權重產生，確保訓練資料分布的即時性並最大化硬體叢集的算力效益。

模型蒸餾成本觸底，硬體底層除錯與通訊架構極限，才是決定AI勝負的關鍵壁壘。

Abstract

This post contains rough notes on pretraining parallelisms, whether distillation can be stopped, Mythos and the cybersecurity equilibrium, Pipeline RL, and why pretraining runs fail.

What I learned this week (20 minute read)

提取Opus 4.6模型1兆Token僅需2500萬美元，實驗室隱藏思維鏈以阻擋低成本蒸餾的防線正岌岌可危。本文彙整模型蒸餾防禦、打破因果引發的預訓練失敗，及FSDP平行運算底層瓶頸。

1兆Token僅需2500萬美元的Opus模型蒸餾防禦

打破因果與FP16精度如何摧毀GPT-4預訓練

6ND公式與FSDP資料平行的通訊頻寬交叉點

Mythos模型串聯漏洞與修補C語言的防禦難題

Pipeline RL論文解決強化學習的GPU閒置問題

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。