Weak-to-Strong Knowledge Distillation Accelerates Visual Learning

Baiang Li, Wenhao Chai, Felix Heide

View Original ↗
AI 導讀 technology AI 重要性 4/5

普林斯頓大學提出弱到強的知識蒸餾機制,以較弱教師引導模型早期訓練,創下 ImageNet 分類任務 4.8 倍提速。

  • 藉由凍結較弱的教師模型並在早期提供指引,可大幅提早學生模型達標時間。
  • 採用超越即停止策略,確保蒸餾機制不會限制大型學生模型後期的最終效能。
  • 教師模型效能落後學生模型 15% 內的區間為最佳甜蜜點,過強或過弱皆無效。

傳統知識蒸餾多由強大教師指導小型學生模型以進行參數壓縮,普林斯頓大學團隊最新研究則打破此常規,提出「弱到強(Weak-to-Strong)」的蒸餾加速架構。透過讓較弱的教師模型僅在早期訓練階段提供引導,研究團隊在不損失最終準確率的前提下,成功讓 ImageNet 分類任務的訓練速度大幅提升高達 4.8 倍,徹底將知識蒸餾從單純的壓縮工具轉變為強悍的訓練提速引擎。

跳脫模型壓縮思維:以較弱教師引導強大目標模型

現代視覺學習極度仰賴大規模預訓練,動輒消耗龐大的運算資源與數週時間。包含 DINOv2EVA-02Florence-2 等現代基礎模型,往往是基於先前的檢查點(Checkpoints)疊代開發而來。這為開發者提供了一個具體的切入點:重複利用現存的舊版本模型作為訓練時的引導,藉此減少達到目標品質所需的訓練週期(Epochs)。

標準的知識蒸餾通常將監督訊號從強大教師轉移到較弱的學生模型,核心目的是降低推論成本。儘管少數研究曾探索自我蒸餾或反向蒸餾,但現有框架幾乎從未針對「最小化達到特定效能標準的訓練時間」進行最佳化設計。

為了縮短前期的摸索期,普林斯頓團隊捨棄了傳統的強大教師設定,改為探討弱到強的知識蒸餾機制。這套做法刻意挑選能力稍弱的教師模型,經過一次載入後便將其參數永久凍結。系統僅會在早期訓練階段套用蒸餾損失,藉助現成的軟標籤(Soft labels)幫助大型學生模型快速收斂。

ImageNet 取得 4.8 倍提速的動態停止機制

實作上,這套訓練配方採用即插即用的設計,完全無需改變基準學生模型的資料增強或網路架構管線。研究人員在原始任務的交叉熵損失中加入蒸餾項,並引入簡潔的「預熱、維持、衰減(warmup-hold-decay)」動態權重排程。預熱機制能有效防止初期的梯度不穩定,維持階段則穩定提供轉移訊號,最後的衰減期可避免訓練後期發生過度正規化的現象。

系統設計的核心在於自適應的「超越即停止(stop-after-surpass)」規則。一旦學生模型在連續兩次的驗證中,效能指標成功跨越被凍結的弱教師模型,訓練迴圈就會永久關閉蒸餾機制。關閉蒸餾不僅能省下後續的前向傳播運算開銷,更能確保學生模型徹底掙脫弱教師的效能天花板限制。

針對影像分類任務,該機制展現了壓倒性的提速成果。在 ImageNet-1K 任務上,研究團隊讓 ResNet-50 學生模型接受 ResNet-18 教師的指導,不僅提早達標,最高更在 Muon 最佳化器環境下測得 4.8 倍的提速比。相較於單純使用標籤平滑(Label Smoothing)的基準測試,弱到強蒸餾依然保持顯著的早期優勢,且最終的 Top-1 準確率絲毫不受影響。

COCO 偵測到 CIFAR-10 擴散模型的跨任務驗證

影像分類之外,這套即插即用的模組同樣能無縫延伸至其他高複雜度的視覺任務。在物件偵測領域,團隊採用了 COCO 資料集(train5k/val500 分割),並透過對齊分類 Logit 與設定特定信心閾值來進行測試。實驗過程中,團隊完全保留了偵測器原本的最佳化器與資料擴增邏輯。

當套用弱到強蒸餾後,以 RetinaNet-R34 作為教師引導 RetinaNet-R50 時,模型達到目標 AP50(平均精度均值達 20%)指標的速度提升了 1.7 倍。而在 Faster R-CNN 家族中以 R18 指導 R50 時,所需訓練週期同樣由 4 個縮短至 3 個,證明此效應完全不侷限於單一類型的偵測器架構。

將場景轉換到擴散模型(Diffusion Models)的影像生成任務上,團隊讓參數量較小的 DDPM 型 U-Net 指導龐大的學生模型。透過直接對齊雙方在相同加噪樣本上的雜訊預測向量,於 CIFAR-10 資料集上達成目標 FID(圖像生成品質指標)的訓練步數提早了高達 2.5 倍。這些數據反覆驗證了,早期引導能大幅壓縮模型穿越混沌期所需的最佳化步數。

解析 15% 效能帶:為何教師太強反而拖慢速度

挑選合適的教師模型,是此技術發揮最大效益的絕對關鍵。團隊詳細描繪了教師強度的運作帶(Operating Band),指出只有在教師效能「適度落後」目標模型(最高差距不超過 15%)時,提速表現才會最為驚人。

如果選用過於低階的教師(如用 MobileNetV3-S 指導 ResNet-50),教師輸出的熵值過高、預測不具決定性。實驗數據顯示,這種搭配的加速比直接跌落,甚至引發反效果(測得 0.51 倍)。這暴露出單純能讓模型對齊並不夠,當監督訊號本身的資訊量過於薄弱時,根本無法帶來實質的最佳化推進力道。

反之,若選用過於強大的教師(如以 ResNet-50 指導小型的 MobileNetV2),即便訊號極為精確,但對於容量較小的學生模型而言過於困難且難以消化。在這種神經網路容量嚴重錯配的狀況下,強大的對齊效益無法轉換為速度,加速比最終萎縮至幾乎與無蒸餾持平(1.05 倍)。只有在適度較弱的區間內,指導訊號既具備充足資訊又容易吸收,方能催生出極佳的推背感。

固定架構變因:探討不同階段檢查點的提速差異

為了排除不同神經網路架構帶來的干擾,研究團隊在 COCO 偵測任務中進行了一項極致的消融實驗。團隊將教師與學生架構固定為 RetinaNet-R34R50 組合,並僅僅替換 R34 教師在不同訓練階段生成的檢查點。

當使用早期訓練階段的 R34 檢查點(AP50 約為 12.8)時,由於模型尚未收斂、訊號過弱,只帶來了微乎其微的速度提升。而當直接套用訓練到晚期、完全收斂的 R34 檢查點(AP50 高達 26.2)時,極低的預測熵值同樣讓加速效益暴跌至近乎基準線的水準,證實了太強的訊號難以被消化。

唯有提取訓練至中期、效能適中(AP50 約為 19.5)的檢查點,系統才重新爆發出 1.67 倍的顯著加速。進一步檢視前 35 個 Epoch 的梯度範數(Gradient Norms),團隊發現此區間內的梯度維持在極度穩定的範圍。在現實工程場景中,只要從前次訓練中截取這種中繼版本,開發者就能零修改地將此機制部署為通用外掛。

善用手邊適度較弱的過往模型作為早期引導,不僅能大幅縮減大模型訓練時間,更確立了疊代開發流程中的全新資源再利用典範。

Abstract

Large-scale visual learning is increasingly limited by training cost. Existing knowledge distillation methods transfer from a stronger teacher to a weaker student for compression or final-accuracy improvement. We instead investigate distillation to accelerate the training of strong students. We propose a generalizable plug-and-play recipe that freezes a weaker teacher, applies distillation only in early training, and turns it off once the student reaches and surpasses teacher-level performance. For ImageNet and CIFAR classification, this strategy reaches target thresholds much earlier, with up to 4.8 times speedup measured by epochs. We confirm that the method generalizes to other tasks and report 1.7 times epoch speedup for object detection on the COCO dataset, and 2.5 times earlier target-FID crossing for diffusion generation on the CIFAR-10 dataset, measured in steps. These findings validate our method as a universal speedup mechanism for visual learning.