Convergence Rate Analysis of SOAP with Arbitrary Orthogonal Projection Matrices

Huan Li, Zhouchen Lin

View Original ↗
AI 導讀 technology AI 重要性 3/5

北京大學首次建立 SOAP 收斂速率,條件獨立投影假設統一覆蓋 SOAP、Splus、ARO 三類優化器。

  • SOAP 以 K 四次方根速率收斂,為矩陣投影優化器首次建立完整理論保證。
  • 投影矩陣條件獨立假設寬鬆,自動覆蓋 Splus 和 ARO,形成統一框架。
  • 核范數速率比 Shampoo 慢 √min{m,n} 倍,是否可改進仍是開放問題。

被廣泛用於訓練大語言模型的矩陣優化器 SOAP 問世超過一年,卻始終沒有嚴格的收斂性理論保證。北京大學 Huan Li 與 Zhouchen Lin 在這篇 arXiv 短注中首次建立了 SOAP 的收斂速率,並將框架推廣至任意正交投影矩陣——唯一要求是投影矩陣在每次迭代時與當前隨機梯度條件獨立,這是絕大多數常見構造方式都能自然滿足的條件。

矩陣優化器的崛起:從 Adam 家族到 SOAP

過去十年,Adam 家族(AdaGrad、RMSProp、Adam、AdamW)是訓練深度神經網路的事實標準。這些方法把全部參數拉直為一個高維向量,對每個元素分別維護動量 M 和自適應二階矩 V,再逐元素更新。設計簡單通用,但代價是完全忽略了神經網路層本身的矩陣幾何結構——全連接層和 attention 投影層的參數本質上是一個 m×n 矩陣,向量化等於主動丟棄了這個低秩結構的資訊。

近年興起的矩陣優化器(matrix-based optimizer)直接在矩陣空間操作,在多項大模型預訓練實驗中展現了超越 Adam 家族的潛力。代表作包括 Shampoo(以 Kronecker 積近似完整曲率)、Muon(通過 Newton-Schulz 迭代做梯度正交化)、SOAP(Vyas et al., 2025,在預條件矩陣特徵向量張成的子空間中跑 Adam)、Splus(Frans et al., 2025)以及 ARO(Gong et al., 2026)。其中 SOAP、Splus、ARO 統稱「基於投影的優化器」(projection-based optimizer),共同思路是先把梯度投影到低秩子空間,再在投影空間內做 Adam 風格的自適應更新。

SOAP 的理論缺口:SVD 投影與 Adam 機制耦合難分析

向量類優化器的收斂性已有成熟文獻,矩陣類方法的理論基礎相對薄弱。Muon 因結構較簡單(純梯度正交化)已被充分分析;Shampoo 的 AdamW 風格實作的收斂保證則由 Li et al.(2026)建立。SOAP 的分析困難源於兩個機制的深度耦合:結構化的 SVD 正交投影,加上投影空間內部的 Adam 自適應步長——這兩者的糾纏讓標準隨機優化工具難以直接套用。

最接近的前置工作是 He et al.(2025)對 GaLore(Zhao et al., 2024)的一個變體進行分析,但他們替換了兩個關鍵設計:把 SVD 投影換成隨機投影,並以 MSGD(動量隨機梯度下降)取代 Adam 的自適應機制。論文作者直接指出,He et al. 的技術工具「遠遠不足以建立完整 SOAP 算法的收斂性」,SOAP 的理論保證是當時的開放問題

首個 SOAP 收斂定理:核范數以 K 四次方根衰減

Theorem 1 建立了廣義 SOAP 的兩個收斂界。第一個(公式 3)以逐元素 ℓ₁ 范數度量投影後梯度,在 ‖X‖₁ = Θ(√(mn))‖X‖_F 的理想條件下可與隨機非凸優化的理論下界匹配(Arjevani et al., 2023)。第二個(公式 4)更直觀,以核范數(nuclear norm,即矩陣所有奇異值之和,可視為矩陣版的梯度大小)直接衡量收斂:

(1/K) ∑ E[‖∇f(X_k)‖_*] ≤ 10√(σ̂_F² L Δ / K σ_op²) + 4√(mn) ⁴√(σ̂_F² L Δ / K)

其中 Δ = f(X₁) - f 為初始函數值與最優值之差;m×n 是參數矩陣維度;σ_F²、σ_op² 分別為梯度 Frobenius 范數與算子范數(最大奇異值)的噪聲方差上界;L 為梯度 Lipschitz 常數。右側主導項以 K 的四次方根*衰減,與 Adam 系列在非凸隨機優化中的典型速率形式一致。證明框架沿用 Li et al.(2025a)的 AdamW 分析技術,核心鏈條是 Lipschitz 展開 → 動量誤差遞推 → Hölder 不等式收斂求和。

條件獨立假設統一覆蓋 Splus 和 ARO

本文最大的靈活性在於投影矩陣幾乎沒有構造限制——唯一的要求是條件獨立:在給定第 k-1 步之前所有資訊的條件下,投影矩陣 P_{k-1}、Q_{k-1} 與第 k 步的隨機梯度估計 G_k 條件獨立。形式上,這讓推導中出現的關鍵期望可以因子化:E_k[P^T G_k Q | F_{k-1}] = P^T · E_k[G_k | F_{k-1}] · Q,從而使梯度估計的隨機性能被乾淨地控制。

滿足這個條件的常見構造方式包括:原始 SOAP 中延遲一步更新的預條件矩陣特徵向量;前一步動量矩陣 M_{k-1} 的左右奇異向量;或前一步梯度 G_{k-1} 的奇異向量。這些方法都只使用到第 k-1 步之前的資訊,天然滿足條件獨立。因此 Theorem 1 不只適用於 SOAP 本身,也直接覆蓋 Splus 和 ARO,為整類基於投影的矩陣優化器提供了統一的收斂框架。

速率差距:核范數界比 Shampoo 慢 √min{m,n} 倍

定理也明確指出 SOAP 的理論局限。公式 4 的核范數收斂速率比 AdamW 風格 Shampoo(Li et al., 2026)慢 √min{m,n} 倍,比理論最優下界至少慢 √max{m,n} 倍。這個差距的數學根源是:核范數是么正不變范數,可以消去投影矩陣;但 ℓ₁ 范數不是么正不變的,投影矩陣留在界中帶入了 √(mn) 這個維度因子。這究竟是分析工具的局限,還是 SOAP 算法本身的計算瓶頸,目前仍是開放問題——作者並未聲稱這個差距不可逾越。

SOAP 首獲收斂保證,條件獨立投影統一覆蓋三類算法;但核范數速率比 Shampoo 慢 √min{m,n} 倍,理論收緊是下一步課題。

Abstract

In this short note, we establish, for the first time, the convergence rate of SOAP, an efficient and popular matrix-based optimizer for training deep neural networks. Our analysis extends to a more general variant of SOAP that admits arbitrary orthogonal projection matrices and requires only that these matrices be conditionally independent of the current stochastic gradient at each iteration. For example, they may be constructed from information available up to the preceding step.