OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism
OmniGCD 透過單次合成資料訓練,在 4 大模態 16 個資料集中達成零微調類別發現,文字準確率提升 17.9%。
- 首創跨模態零樣本 GCD 框架,無需對特定資料集微調即可發現新類別。
- 僅用合成資料訓練一次 GCDformer,即可直接套用於視覺、文字、音訊與遙測。
- 解耦特徵提取與分類任務,升級底層編碼器即可直接推升整體系統準確率。
人類大腦在學習分類時,不會因為看到畫面或聽到聲音而切換截然不同的底層機制。澳洲昆士蘭科技大學團隊提出的 OmniGCD 模型模仿了這種抽象分類能力,它完全不依賴特定資料集的微調,僅靠一次純合成資料訓練,就能在視覺、文字、音訊與遙測等 4 種模態的 16 個資料集上達成廣義類別發現,文字分類準確率甚至躍升了 17.9%。
突破單一模態限制的廣義類別發現任務
廣義類別發現(Generalized Category Discovery,簡稱 GCD)是一項模擬人類分類行為的電腦視覺任務,要求模型在只有部分標註資料的情況下,同時辨識已知類別並找出隱藏的新類別。傳統的 GCD 架構運作時,模型必須同時存取已知標籤資料集與未標註資料集,並透過這些特定資料來微調特徵編碼器。這導致每當面對一個全新領域的資料時,開發者就必須重新訓練一個獨立的模型。
這種依賴特定任務微調的做法,與人類大腦處理跨感官抽象分類的能力背道而馳。為了打造更具通用性的 AI,研究團隊在這篇論文中提出了零樣本(zero-shot)GCD 的嚴苛設定。在這種環境下,模型在訓練階段完全無法接觸目標資料集,必須在不更改任何底層參數的情況下,直接以跨模態(modality-agnostic)的抽象思維來完成推論與類別分配。
利用 t-SNE 降維建構統一的 GCD 潛在空間
為了讓系統能夠接收任何形式的輸入,OmniGCD 架構首先利用預先訓練好的模態特定編碼器,將原始資料轉換為高維度特徵向量。針對視覺任務可使用 DINOv2,處理文字則套用 E5-Large-v2(大型語言模型文字編碼器),這些模組就如同大腦的各類感官接收器。接著,系統必須將這些高維度資訊映射到一個稱為 GCD 潛在空間的統一維度中。
由於直接在高維空間取樣會遭遇嚴重的維度詛咒問題,導致後續運算難以收斂,團隊選用了非參數化的 t-SNE(t-分布隨機鄰近嵌入法)進行降維。研究比較了 PCA、UMAP 與 t-SNE,結果顯示 t-SNE 不但能有效保留資料間的局部結構,還能在將特徵壓縮至二維平面時,維持最高的叢集分離度與最低的重疊率,為後續的 Transformer 處理打下完美基礎。
GCDformer 將標籤資訊代幣化與合成資料訓練
降維後的資料點會進入 OmniGCD 的大腦核心——基於 GPT-2 架構設計的 GCDformer 模型。有別於傳統將影像切成區塊,GCDformer 將每個資料點視為一個資料代幣(data token),並將標籤資訊串接成標籤代幣(label token)。針對已知類別,系統採用類似正弦位置編碼的機制寫入具體類別;對於未標註資料,則給予一個可學習的遮罩代幣。這種設計讓模型能以無序集合(set)的方式處理整個潛在空間的資料。
最關鍵的是,GCDformer 完全沒有使用任何真實世界資料進行訓練。團隊透過隨機生成不同形狀的高斯分布或均勻分布點陣,模擬出從幾個到幾百個不等的合成類別,並隨機隱藏標籤。搭配對比損失(contrastive loss)機制,這套單一模型只透過學習合成結構,就掌握了將同類點拉近、異類點推開的空間轉換能力,最終讓 k-means 演算法能輕鬆完成分群。
測試 16 個資料集與特徵解耦帶來的底層紅利
經過這套單次合成訓練後,同一個 GCDformer 模型直接迎戰 4 種截然不同模態的 16 個資料集。測試結果顯示,比起直接在原始特徵上進行分群的傳統方法,OmniGCD 的零樣本表現在各領域都取得顯著突破。其平均準確率在視覺、文字、音訊與遙測領域分別提升了 6.2、17.9、1.5 與 12.7 個百分點;值得注意的是,這也是學界首次成功將 GCD 任務拓展至音訊領域。
這項研究證明了將特徵表示學習與類別發現推理徹底解耦的巨大潛力。數據揭露,只要抽換底層的感官模組——例如將視覺編碼器從初代的 DINOv1 升級至 DINOv2 甚至 DINOv3,OmniGCD 的總體分類準確率就會隨之直線飆升。這意味著未來針對特定模態的編碼器優化,都能透過這種跨模態框架無縫傳遞,不需重新訓練分類核心,就能讓整體的未知類別發現能力不斷進化。
將特徵學習與分類推論徹底解耦,為跨模態模型開拓了全新路徑,讓未來 AI 有望以單一框架處理所有感官訊號。