Google DeepMind Introduces Decoupled DiLoCo: An Asynchronous Training Architecture Achieving 88% Goodput Under High Hardware Failure Rates
Decoupled DiLoCo 把分散式訓練頻寬砍 99.6%,高故障率下 goodput 從 27% 升至 88%
- 頻寬壓縮 236 倍,0.84 Gbps 即可支撐跨八個資料中心的大模型全球訓練
- 混沌工程驗證:goodput 88% vs 27%,learner unit 故障後可無縫重新整合
- 12B 模型跨美四區生產驗證通過,速度超傳統同步方法 20 倍,支援混代 TPU 共訓
1 顆晶片故障就能讓整批訓練流程停擺——這是傳統大規模 AI 訓練最根本的脆弱點。Google DeepMind 提出的 Decoupled DiLoCo 架構,透過非同步「計算島嶼」設計,在 120 萬顆晶片的高故障率模擬中,把有效算力使用率從 27% 拉到 88%,同時把跨資料中心頻寬需求從 198 Gbps 壓縮至 0.84 Gbps,讓全球分散式大模型預訓練第一次真正可行。
傳統 AllReduce 訓練的頻寬瓶頸與脆弱性
標準的資料並行(Data-Parallel)訓練,是讓數千顆 GPU 或 TPU 各自處理不同批次的資料,再透過「AllReduce(全域梯度同步,把所有裝置的梯度加以平均)」步驟整合結果——只有完成這一步,下一輪訓練才能繼續。AllReduce 是阻塞性操作:所有裝置必須等待最慢的那顆完成,整條管線才能前進。
在橫跨多個資料中心的數千顆晶片規模下,任何一顆晶片的延遲或故障都會拖慢整個系統。頻寬是另一道硬牆:傳統資料並行訓練在跨八個資料中心時,需要約 198 Gbps 的跨資料中心頻寬——遠超一般廣域網路(WAN)在地理分散設施間的實際可用量。兩個制約合在一起,讓全球規模的分散式訓練在實務上幾乎無從落地。
從 198 Gbps 壓到 0.84 Gbps 的架構核心設計
Decoupled DiLoCo(Distributed Low-Communication,分散式低通訊訓練)整合了 Google 的兩個前代技術。第一個是 Pathways,一套基於非同步資料流的分散式 AI 系統,讓不同計算資源可以各自步調工作,不需互相等待。第二個是 DiLoCo,透過讓每個工作節點先執行大量本地梯度步驟再同步,大幅減少跨資料中心需要傳輸的資料量。
Decoupled DiLoCo 把兩者結合,建立在 Pathways 之上。訓練被分割到多個稱為「learner unit(學習單元)」的獨立計算叢集——即「計算島嶼」。每個 learner unit 半獨立地執行本地訓練步驟,完成後才把壓縮梯度傳送給「外部優化器(outer optimizer)」做跨單元匯總。
關鍵在於,外部同步步驟是非同步的:某個島嶼的晶片故障或速度偏慢,不會卡住其他島嶼繼續訓練。跨八個資料中心的頻寬需求也因此從 198 Gbps 驟降至 0.84 Gbps,降幅超過兩個數量級,讓標準商用廣域網路即可支撐全球分散式大模型預訓練。
| 指標 | 傳統資料並行 | Decoupled DiLoCo |
|---|---|---|
| 跨資料中心頻寬(8 個 DC) | 198 Gbps | 0.84 Gbps |
| Goodput(高故障率) | 27% | 88% |
| 訓練速度(相對) | 1× | >20× |
| Gemma 4 基準準確率 | 64.4% | 64.1% |
| 支援異質硬體世代 | 否 | 是(v6e + v5p) |
資料來源:Google DeepMind 研究論文
混沌工程下的 88% goodput 與自我修復機制
研究團隊使用「混沌工程(chaos engineering,刻意在運行中系統注入人工故障以測試韌性)」,在訓練過程中主動製造硬體故障。系統在整批 learner unit 離線後仍持續訓練,並在單元重新上線後無縫重新整合——研究團隊稱此為「自我修復(self-healing)」。
在模擬 120 萬顆晶片、高故障率的情境下,Decoupled DiLoCo 維持了 88% 的 goodput(有效算力使用率,代表系統執行有效訓練的時間比例),標準資料並行方法則只有 27%。Goodput 是衡量訓練系統真實效率的關鍵指標:名義算力高但 goodput 低,代表大量計算資源被浪費在等待與故障恢復上。
模型品質方面,影響微乎其微。以 Gemma 4 模型的實際實驗為例,Decoupled DiLoCo 在機器學習基準測試上平均達到 64.1% 準確率,傳統基準為 64.4%——差距在一般評估變異的雜訊範圍內,不構成實際的品質退化。
有效算力使用率:Decoupled DiLoCo vs 標準資料並行訓練
12B 模型跨美四區生產驗證:速度快傳統方法 20 倍
研究團隊以生產規模驗證了這套架構:在橫跨美國四個獨立區域的設施上,成功訓練一個 120 億參數(12B) 的語言模型,使用的廣域網路頻寬僅需 2 到 5 Gbps——這個等級與現有商用網路基礎設施完全相容,不需要特製高速網路連線。
速度超越傳統同步方法 20 倍以上。根本原因在於通訊哲學的轉換:傳統架構把通訊當作計算必須等待的阻塞步驟,Decoupled DiLoCo 則把必要的通訊嵌入更長的本地計算週期中一起執行,讓通訊成本從「每步都要付出的強制代價」,變成「攤銷在大量計算步驟中的微小負擔」。
跨 TPU v6e / v5p 世代的異質硬體訓練
這套架構還有一個容易低估的實用意涵:支援異質硬體(heterogeneous hardware,不同型號、不同世代的晶片共同參與同一任務)。由於 learner unit 以非同步方式運作,各單元不需要在完全相同的硬體上以相同時脈執行。研究團隊展示了同時使用 TPU v6e 與 TPU v5p 完成同一個訓練任務,且機器學習性能沒有出現退化。
這帶來兩個值得關注的實際意義。第一,延長現有硬體的使用壽命:舊世代加速器在新硬體到位後,仍可繼續有意義地參與大規模訓練,不必立刻閒置。第二,降低硬體世代切換期的容量擠壓:新硬體不會同時抵達所有設施,跨世代訓練能力讓大型訓練基礎設施在過渡期間維持更平穩的運作節奏。
頻寬降 236 倍、goodput 升三倍、12B 模型跨美四區實測——這套架構讓全球分散式大模型訓練第一次真正脫離同步等待的枷鎖。