SSFT: A Lightweight Spectral-Spatial Fusion Transformer for Generic Hyperspectral Classification

Alexander Musiat, Nikolas Ebert, Oliver Wasenmüller

View Original ↗
AI 導讀 technology AI 重要性 4/5

SSFT 模型僅用 51.6 萬參數,不到前代基準 2% 的體積,即在三大高光譜影像分類測試中奪得最高總分。

  • SSFT 採用 51.6 萬參數的輕量架構,在跨領域的 HSI-Benchmark 測試中奪下 84.87 的最高總分。
  • 交叉注意力機制有效融合光譜與空間特徵,實驗證實關閉空間分支會讓準確率慘跌至 38.28。
  • 常規電腦視覺的數據擴增會破壞光譜物理特徵,研究證實零數據擴增反而能締造最佳分類表現。

高光譜影像分類技術長期面臨標註數據稀缺與領域差異的挑戰,使得龐大的深度學習模型容易陷入過度擬合。研究團隊提出全新輕量級光譜-空間融合變換器(SSFT),僅使用 51.6 萬參數——不到前代領先方法 2% 的體積,便在多領域 HSI-Benchmark 測試中奪下最高總分 84.87。更有趣的是,研究證實常規的電腦視覺數據擴增手段反而會破壞光譜物理特性,不使用任何擴增才是達到最佳準確率的關鍵。

突破高光譜影像標註困境:51萬參數的解答

HSI(高光譜影像,Hyperspectral Imaging)技術能捕捉跨越數十到數百個狹窄波段的豐富光譜特徵,藉此實現材料組成與物理狀態的細粒度辨識。這項技術在地球觀測、農業、環境監測與品質評估等領域極具潛力。然而,HSI 數據集具有高度異質性,測量結果會因感測器、光學元件、空間解析度、照明條件以及校準方式的不同而產生巨大的領域偏移。除了地球觀測領域外,大多數帶有標註的 HSI 數據集通常規模極小且類別不平衡,嚴重限制了監督式學習的發展。

檢視目前主流的深度學習分類器,大多沿用針對 RGB 影像識別設計的龐大主幹網路。早期的研究主要依賴 3D 卷積來聯合建模光譜與空間的相關性,後續則轉向使用 2D CNN(卷積神經網路,Convolutional Neural Network) 搭配光譜混合技術,或是採用注意力機制與變換器(Transformer)編碼器來捕捉更廣泛的上下文資訊。雖然這類發展提升了模型的表徵能力,卻也讓架構變得越來越龐大且耗費運算資源。在 HSI 這種標註數據匱乏的情境下,高容量模型反而容易去記憶特定數據集的統計特徵或感測器偽影,而非學習真正具備泛化能力的光譜-空間特徵。

為了解決上述瓶頸,研究團隊提出了 SSFT(Spectral-Spatial Fusion Transformer)。這是一款專為異質性高、監督信號微弱的 HSI 情境量身打造的極輕量架構。它將光譜特徵與空間結構分流至獨立的輕量化分支進行處理,避免了傳統模型在初期就強行混合高維度數據所帶來的雜訊。最驚人的是,SSFT 的參數量僅有 51.6 萬,與動輒千萬參數的常規 CNN 或 Transformer 基準模型相比,體積縮小了幾個數量級,卻依然能在嚴苛的測試中展現頂尖效能。

SSFT 雙路徑設計:以交叉注意力融合光譜空間

拆解這套模型的運作原理,SSFT 將處理流程解耦為光譜與空間兩條並行路徑。在光譜編碼器部分,模型針對每個空間位置獨立在光譜維度上套用自注意力機制。由於相鄰光譜波段之間具有高度相關性,這種設計能有效處理跨波段的長距離依賴關係。輸入的數據立方體會先經過最大池化層進行空間降維,隨後模型將標量波段值映射到 Token 嵌入向量,並加入通道位置編碼,最終透過多頭自注意力機制與前饋神經網路聚合出專注於光譜互動的特徵向量。

針對空間特徵的提取,空間編碼器則專注於強調局部的空間結構,例如邊緣、紋理與區域級別的模式。不同於光譜編碼器關注波段間的混合,空間編碼器利用卷積處理來聚合影像平面上相鄰像素的資訊。模型先以 1x1 卷積將所有光譜通道投影至共享的嵌入維度,降維後再通過單一卷積區塊(包含 3x3 卷積、批次正規化與 GELU 激活函數)。這種輕量級的 CNN 設計保留了局部性與平移等變性的歸納偏置,能在維持極低運算成本的同時,精準抓取 HSI 影像的紋理細節。

進入最關鍵的融合階段,SSFT 採用交叉注意力(Cross-Attention)機制,以選擇性且取決於內容的方式將光譜線索注入空間表徵中。具體而言,模型將空間特徵的 Token 作為「查詢(Queries)」,並讓光譜特徵的 Token 提供「鍵(Keys)」與「值(Values)」。這種設定確保了卷積分支的空間歸納偏置得以保留,同時具備自適應、針對特定位置的光譜條件化能力。融合後的輸出再經由一層輕量的 MLP(多層感知器,Multi-Layer Perceptron) 作為主要分類頭,直接預測最終的類別邏輯值。

HSI-Benchmark 實測:僅 2% 參數即奪得總分冠軍

為了驗證跨領域的泛化能力,研究團隊在包含三個截然不同應用領域的 HSI-Benchmark 數據集上進行了全面評估。這三個領域分別是:涵蓋大範圍地理結構的地球觀測(HRSS)、受限於近距離且空間多樣性低的果實狀態評估(Fruit),以及依賴細微光譜差異來區分相似材質的細粒度碎片識別(Debris)。在官方的嚴格測試協議下,SSFT 以 84.87 的整體總分擊敗了所有對手,名列第一。

攤開具體數據,SSFT 在 Debris 領域拿下了 93.33 的最高分,而在最具挑戰性的 Fruit 領域也以 61.72 奪冠,大幅超越前代最佳方法達 3.44 分。在 HRSS 領域,SSFT 也交出了 99.56 的優異成績,與最佳模型僅有微小差距。這項成果證明了分解光譜與空間處理並輔以交叉注意力融合的策略,確實能學習到跨越不同硬體與環境設定的穩健特徵,而在 Fruit 與 Debris 這類高度依賴微妙光譜差異的領域,SSFT 的進步幅度尤為顯著。

轉向規模更大的 SpectralEarth EnMAP-CORINE 基準測試,這套微型架構依然展現了強大的轉移能力。在該項測試中,微調(Full FT)將 SSFT 的 F1 分數從凍結權重的 58.89 大幅拉升至 75.87。儘管在極大數據量下,SSFT 尚未完全超越擁有 24.24M 參數的 Spec. RN5022.54M 參數的 Spec. ViT-S 等巨型模型,但它以極致輕量的 0.516M 參數,提供了緊湊度與效能之間的最佳平衡,特別適合應用於邊緣運算與資源受限的感測終端。

消融實驗打破常規:零數據擴增締造 84.87 分

深入探討模型各部件的貢獻,消融實驗揭示了空間與光譜雙路徑的必要性。當研究人員在融合前將空間特徵歸零,整體的基準分數瞬間崩跌至 38.28,顯示空間結構對於 HSI 基準測試具備決定性的影響。若關閉光譜分支,整體分數也會降至 70.92,其中 Debris 領域的退化最為劇烈(從 93.33 暴跌至 66.46),這印證了細粒度的光譜資訊在區分視覺相似材質時扮演著不可或缺的角色。這項數據證明,單一分支無法應付複雜的 HSI 場景,融合架構有其絕對必要性。

值得注意的是,在常規的 RGB 電腦視覺中,數據擴增(Data Augmentation)是提升模型強健性與防範過擬合的標準工具,但在 HSI 領域卻出現了截然不同的結果。實驗針對常見的空間與光譜擴增手法進行測試,結果發現不使用任何擴增(無擴增)的訓練配置反而獲得了最高的 84.87 總分。大多數的擴增手法都導致了總分下降,其中「裁切(Cropping)」造成的損害最為嚴重,讓分數滑落至 82.10。這表示任意干擾光譜與空間結構,會破壞感測器測量與物理反射的真實信號,在處理視覺相似類別時尤其致命。

結合輔助分類器(深度監督)的設計也為模型帶來了額外效益。實驗發現,在融合前對光譜與空間分支外掛輔助分類頭,能將整體分數小幅提升 0.95 分(從 83.92 升至 84.87)。這套機制的影響因領域而異,對 Debris 和 HRSS 有明顯助益,但在 Fruit 領域則略有下降。這系列發現強烈暗示:在資源受限且異質性極高的 HSI 領域,盲目套用 RGB 視覺的訓練配方並非萬靈丹,唯有尊重光譜物理特性的模型架構與訓練策略,才能真正發揮高光譜影像的潛力。

跨領域的機器視覺發展往往迷信於模型參數規模與數據擴增,但 SSFT 以不到 2% 的體積證明了架構解耦與物理本質的契合度,才是突破數據稀缺困境的真正關鍵。

Abstract

Hyperspectral imaging enables fine-grained recognition of materials by capturing rich spectral signatures, but learning robust classifiers is challenging due to high dimensionality, spectral redundancy, limited labeled data, and strong domain shifts. Beyond earth observation, labeled HSI data is often scarce and imbalanced, motivating compact models for generic hyperspectral classification across diverse acquisition regimes. We propose the lightweight Spectral-Spatial Fusion Transformer (SSFT), which factorizes representation learning into spectral and spatial pathways and integrates them via cross-attention to capture complementary wavelength-dependent and structural information. We evaluate our SSFT on the challenging HSI-Benchmark, a heterogeneous multi-dataset benchmark covering earth observation, fruit condition assessment, and fine-grained material recognition. SSFT achieves state-of-the-art overall performance, ranking first while using less than 2% of the parameters of the previous leading method. We further evaluate transfer to the substantially larger SpectralEarth benchmark under the official protocol, where SSFT remains competitive despite its compact size. Ablation studies show that both spectral and spatial pathways are crucial, with spatial modeling contributing most, and that SSFT remains robust without data augmentation.