Weak-to-Strong Knowledge Distillation Accelerates Visual Learning
普林斯頓大學提出弱到強的知識蒸餾機制,以較弱教師引導模型早期訓練,創下 ImageNet 分類任務 4.8 倍提速。
- 藉由凍結較弱的教師模型並在早期提供指引,可大幅提早學生模型達標時間。
- 採用超越即停止策略,確保蒸餾機制不會限制大型學生模型後期的最終效能。
- 教師模型效能落後學生模型 15% 內的區間為最佳甜蜜點,過強或過弱皆無效。
傳統知識蒸餾多由強大教師指導小型學生模型以進行參數壓縮,普林斯頓大學團隊最新研究則打破此常規,提出「弱到強(Weak-to-Strong)」的蒸餾加速架構。透過讓較弱的教師模型僅在早期訓練階段提供引導,研究團隊在不損失最終準確率的前提下,成功讓 ImageNet 分類任務的訓練速度大幅提升高達 4.8 倍,徹底將知識蒸餾從單純的壓縮工具轉變為強悍的訓練提速引擎。
跳脫模型壓縮思維:以較弱教師引導強大目標模型
現代視覺學習極度仰賴大規模預訓練,動輒消耗龐大的運算資源與數週時間。包含 DINOv2、EVA-02 到 Florence-2 等現代基礎模型,往往是基於先前的檢查點(Checkpoints)疊代開發而來。這為開發者提供了一個具體的切入點:重複利用現存的舊版本模型作為訓練時的引導,藉此減少達到目標品質所需的訓練週期(Epochs)。
標準的知識蒸餾通常將監督訊號從強大教師轉移到較弱的學生模型,核心目的是降低推論成本。儘管少數研究曾探索自我蒸餾或反向蒸餾,但現有框架幾乎從未針對「最小化達到特定效能標準的訓練時間」進行最佳化設計。
為了縮短前期的摸索期,普林斯頓團隊捨棄了傳統的強大教師設定,改為探討弱到強的知識蒸餾機制。這套做法刻意挑選能力稍弱的教師模型,經過一次載入後便將其參數永久凍結。系統僅會在早期訓練階段套用蒸餾損失,藉助現成的軟標籤(Soft labels)幫助大型學生模型快速收斂。
ImageNet 取得 4.8 倍提速的動態停止機制
實作上,這套訓練配方採用即插即用的設計,完全無需改變基準學生模型的資料增強或網路架構管線。研究人員在原始任務的交叉熵損失中加入蒸餾項,並引入簡潔的「預熱、維持、衰減(warmup-hold-decay)」動態權重排程。預熱機制能有效防止初期的梯度不穩定,維持階段則穩定提供轉移訊號,最後的衰減期可避免訓練後期發生過度正規化的現象。
系統設計的核心在於自適應的「超越即停止(stop-after-surpass)」規則。一旦學生模型在連續兩次的驗證中,效能指標成功跨越被凍結的弱教師模型,訓練迴圈就會永久關閉蒸餾機制。關閉蒸餾不僅能省下後續的前向傳播運算開銷,更能確保學生模型徹底掙脫弱教師的效能天花板限制。
針對影像分類任務,該機制展現了壓倒性的提速成果。在 ImageNet-1K 任務上,研究團隊讓 ResNet-50 學生模型接受 ResNet-18 教師的指導,不僅提早達標,最高更在 Muon 最佳化器環境下測得 4.8 倍的提速比。相較於單純使用標籤平滑(Label Smoothing)的基準測試,弱到強蒸餾依然保持顯著的早期優勢,且最終的 Top-1 準確率絲毫不受影響。
COCO 偵測到 CIFAR-10 擴散模型的跨任務驗證
影像分類之外,這套即插即用的模組同樣能無縫延伸至其他高複雜度的視覺任務。在物件偵測領域,團隊採用了 COCO 資料集(train5k/val500 分割),並透過對齊分類 Logit 與設定特定信心閾值來進行測試。實驗過程中,團隊完全保留了偵測器原本的最佳化器與資料擴增邏輯。
當套用弱到強蒸餾後,以 RetinaNet-R34 作為教師引導 RetinaNet-R50 時,模型達到目標 AP50(平均精度均值達 20%)指標的速度提升了 1.7 倍。而在 Faster R-CNN 家族中以 R18 指導 R50 時,所需訓練週期同樣由 4 個縮短至 3 個,證明此效應完全不侷限於單一類型的偵測器架構。
將場景轉換到擴散模型(Diffusion Models)的影像生成任務上,團隊讓參數量較小的 DDPM 型 U-Net 指導龐大的學生模型。透過直接對齊雙方在相同加噪樣本上的雜訊預測向量,於 CIFAR-10 資料集上達成目標 FID(圖像生成品質指標)的訓練步數提早了高達 2.5 倍。這些數據反覆驗證了,早期引導能大幅壓縮模型穿越混沌期所需的最佳化步數。
解析 15% 效能帶:為何教師太強反而拖慢速度
挑選合適的教師模型,是此技術發揮最大效益的絕對關鍵。團隊詳細描繪了教師強度的運作帶(Operating Band),指出只有在教師效能「適度落後」目標模型(最高差距不超過 15%)時,提速表現才會最為驚人。
如果選用過於低階的教師(如用 MobileNetV3-S 指導 ResNet-50),教師輸出的熵值過高、預測不具決定性。實驗數據顯示,這種搭配的加速比直接跌落,甚至引發反效果(測得 0.51 倍)。這暴露出單純能讓模型對齊並不夠,當監督訊號本身的資訊量過於薄弱時,根本無法帶來實質的最佳化推進力道。
反之,若選用過於強大的教師(如以 ResNet-50 指導小型的 MobileNetV2),即便訊號極為精確,但對於容量較小的學生模型而言過於困難且難以消化。在這種神經網路容量嚴重錯配的狀況下,強大的對齊效益無法轉換為速度,加速比最終萎縮至幾乎與無蒸餾持平(1.05 倍)。只有在適度較弱的區間內,指導訊號既具備充足資訊又容易吸收,方能催生出極佳的推背感。
固定架構變因:探討不同階段檢查點的提速差異
為了排除不同神經網路架構帶來的干擾,研究團隊在 COCO 偵測任務中進行了一項極致的消融實驗。團隊將教師與學生架構固定為 RetinaNet-R34 與 R50 組合,並僅僅替換 R34 教師在不同訓練階段生成的檢查點。
當使用早期訓練階段的 R34 檢查點(AP50 約為 12.8)時,由於模型尚未收斂、訊號過弱,只帶來了微乎其微的速度提升。而當直接套用訓練到晚期、完全收斂的 R34 檢查點(AP50 高達 26.2)時,極低的預測熵值同樣讓加速效益暴跌至近乎基準線的水準,證實了太強的訊號難以被消化。
唯有提取訓練至中期、效能適中(AP50 約為 19.5)的檢查點,系統才重新爆發出 1.67 倍的顯著加速。進一步檢視前 35 個 Epoch 的梯度範數(Gradient Norms),團隊發現此區間內的梯度維持在極度穩定的範圍。在現實工程場景中,只要從前次訓練中截取這種中繼版本,開發者就能零修改地將此機制部署為通用外掛。
善用手邊適度較弱的過往模型作為早期引導,不僅能大幅縮減大模型訓練時間,更確立了疊代開發流程中的全新資源再利用典範。