What I learned this week (20 minute read)
Opus百萬Token僅25美元,預訓練硬體除錯與通訊極限決定AI模型成敗。
- 隱藏思維鏈無效,用戶操作的黃金差異已成為強化學習的絕佳目標。
- FP16問題曾重創GPT-4,數值偏差嚴重干擾模型預訓練。
- FSDP解決記憶體瓶頸,擴充叢集卻遭遇通訊時間無法縮短的極限。
提取Opus 4.6模型1兆Token僅需2500萬美元,實驗室隱藏思維鏈以阻擋低成本蒸餾的防線正岌岌可危。本文彙整模型蒸餾防禦、打破因果引發的預訓練失敗,及FSDP平行運算底層瓶頸。
1兆Token僅需2500萬美元的Opus模型蒸餾防禦
頂尖實驗室究竟能否阻止開源模型透過蒸餾技術快速追趕?以 Opus 4.6 版本的 API 定價為例,每百萬 Token 僅需 25 美元,這意味著買下 1 兆個 Token 的輸出結果只要花費 2500 萬美元。對於擁有充沛資金的競爭者而言,這筆開銷幾乎微不足道。實驗室目前的主要防禦手段是隱藏模型的思維鏈,不讓用戶取得中間的推論過程。
然而這項防禦策略存在幾個明顯的漏洞。首先,思維鏈並非由特殊格式的 Token 組成,開發者完全可以透過提示詞要求模型直接給出答案,或是將思考過程寫入外部空間。其次,即使實驗室能完美隱藏思維鏈,外部工程師仍可將「重建推論路徑」設為 RLVR(具驗證獎勵的強化學習)的目標函數。這種方式雖然耗費較多算力,但技術上完全可行,讓開源陣營得以反向推導出前沿模型的內部邏輯。
真正在這波代理(Agentic)模型競爭中起關鍵作用的,其實是模型的工具操作能力。當模型在用戶本地端執行寫入程式碼、更新檔案或執行 Bash 指令時,這些動作根本無法被雲端隱藏。建立在模型 API 基礎上的產品開發商,也發展出另一種更強大的蒸餾模式。以程式編寫工具為例,當使用者經過數十次對話終於得到滿意的程式碼,這份「黃金差異(Gold Diff)」就能成為開發商訓練自有模型的強化學習目標,最終效能甚至可能超越底層的原始 API 模型。
打破因果與FP16精度如何摧毀GPT-4預訓練
訓練超大型 AI 模型充滿各種不確定性,其中「打破因果關係」與「引入偏差」是導致預訓練失敗的兩大主因。在混合專家模型(MoE)的路由機制中,通常由路由器計算每個 Token 對各專家的匹配分數。若採用傳統的 Token 路由(Token Routing),可能導致某些專家負載過重、效能大幅下降;若為了平衡負載改用專家選擇(Expert Choice)機制,強迫每個專家接收等量 Token,又會引發另一個問題。
強制分配的機制會打破自迴歸模型的因果關係。因為第 n 個 Token 被分配到哪個專家,會受到未來第 n+k 個 Token 的路由結果影響。這種做法會讓模型在訓練時接收到未來資訊,導致訓練與實際推論情境產生分歧。業界傳聞這正是 Llama 4 早期版本表現不如預期的關鍵原因。此外,如果專家為了避免運算溢出而丟棄部分 Token,同樣會因為後續 Token 匹配度較高而排擠掉先前的 Token,據傳 Gemini 2 Pro 就曾遭遇此類運算異常。
相較於可以透過平均消除的變異數,數值偏差在訓練過程中會不斷複合放大。最初版 GPT-4 的訓練進度曾因為半精度浮點數(FP16)的運算錯誤而嚴重落後。在使用 All-reduce 這類集合通訊操作時,FP16 在數值超過 1024 後的間距會拉大;當模型嘗試將 1 累加一萬次時,數值卡在 1024 並不斷無效進位,導致最終計算的梯度誤差高達十倍。這類硬體底層的浮點數偏差極難除錯,也凸顯了 AI 基礎設施工程的脆弱性。
6ND公式與FSDP資料平行的通訊頻寬交叉點
評估模型預訓練算力的基礎公式為 6ND,代表每次前向與後向傳播中,每個 Token 對應每個參數約需 6 次浮點運算。由於單一 GPU 無法裝下龐大權重,最直覺的解法是資料平行(Data Parallelism),但即便是搭載 288GB 記憶體的 B300 晶片也無法負荷現代模型的參數與激勵值。為了解決記憶體極限,業界目前預設採用 FSDP(完全切片資料平行,Fully Sharded Data Parallel)。
運作 FSDP 時,每張 GPU 只儲存 N 分之一的層級權重,在計算該層前才透過 All-gather 收集完整參數,算完立刻丟棄。FSDP 之所以成為業界標準,是因為它能完美重疊運算與通訊時間;前一層在計算時,網路就可以開始傳輸下一層的權重。若搭配 Reduce-scatter 演算法最佳化梯度同步,讓梯度的分片只留在負責該分片的單一 GPU 上,FSDP 的通訊資料量僅比傳統資料平行高出 50%,卻能釋放極大量的記憶體空間。
儘管具備諸多優勢,FSDP 在無限制擴展 GPU 數量時仍會遭遇頻寬死亡交叉點。隨著 GPU 增加,分配到每張卡的運算時間會下降,但跨晶片通訊時間卻受限於網路拓樸架構無法等比例縮減。當 MFU(模型算力利用率)大幅衰退,或是單一序列長度超過切分極限時,工程團隊就必須導入管線平行(Pipeline Parallelism)。然而管線平行會帶來運算氣泡,並對特定注意力機制(如 Kimi 模型的 Attention-to-residuals)造成架構限制,進而拖慢研究迭代速度。
Mythos模型串聯漏洞與修補C語言的防禦難題
Anthropic 的網路安全模型 Mythos(或稱 Glasswing)展示了有別於以往的代理能力。過去的 AI 只能在程式碼中抓出單一的邊界檢查缺失,但 Mythos 足以串聯五個獨立漏洞來執行任意程式碼或提升權限。這種能力躍升並非單純因為模型變聰明,而是網路攻擊本質上就是組合數學的排列挑戰,大型語言模型剛好極度擅長窮舉並測試這些攻擊鏈。
從攻防平衡的角度來看,如果模型能協助發現潛伏在各系統中的零時差漏洞,整體軟體生態系在 2026 年底前理應變得更安全。然而資安專家的反向觀點指出,發現漏洞與修補漏洞的難度完全不在同一個量級。修補漏洞必須確保不會破壞既有功能、不會影響依賴特定邊緣行為的程式碼,這正是 LLM(大型語言模型)目前最不擅長的工作環節。
面對自動化攻擊的威脅,未來的防禦手段可能包含導入軟體形式化驗證,或是利用生成式 AI 大規模將 C 語言重構為具備記憶體安全的 Rust 語言。Anthropic 選擇在關鍵 IT 基礎設施修補完成前暫不公開此模型,引發了針對企業是否該私自掌握作業系統入侵能力的討論。即便加上安全過濾器,具備專業知識的攻擊者依然能把大型漏洞拆解成看似無害的小問題,輕鬆繞過分類器的監管。
Pipeline RL論文解決強化學習的GPU閒置問題
強化學習在推論階段的硬體利用率,往往面臨意想不到的工程挑戰。根據近期發表的 Pipeline RL 論文,隨著模型持續接受強化學習訓練,不僅回覆的平均長度會增加,生成長度的變異數也會跟著擴大。當模型遇到簡單問題時可能瞬間給出答案,面對複雜任務卻會吐出高達 10 萬個 Token。
不同長度的軌跡(Trajectories)混雜在同一個批次中,會導致嚴重的硬體閒置問題。運算叢集必須等待那些生成極長文字的掉隊者完成推論,才能推進到下一個訓練步驟。如果為了填補運算空檔而持續生成新的批次,這些跨步驟生成的資料將把模型推向離線強化學習的領域。因為後續步驟所使用的訓練軌跡,其實是由好幾個迭代前的舊版模型所生成的,這會導致模型學習效率低下。
為了解決這種模型版本偏移,Pipeline RL 提出了一種名為「飛行中權重更新(In-flight weight updates)」的架構。系統會在長文本生成到一半時,直接將底層的生成模型替換為剛剛完成訓練的最新版本。透過這項技術,所有短軌跡以及大部分長軌跡的後段內容,都會由最新版的模型權重產生,確保訓練資料分布的即時性並最大化硬體叢集的算力效益。
模型蒸餾成本觸底,硬體底層除錯與通訊架構極限,才是決定AI勝負的關鍵壁壘。