HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

Badri N. Patro, Vijay S. Agneeswaran

View Original ↗
AI 導讀 technology AI 重要性 4/5

微軟 HAMSA 捨棄空間掃描,憑頻譜運算達 85.7% 準確率,推論速度翻倍。

  • 完全捨棄影像掃描,改在頻譜域運算,消除序列處理瓶頸。
  • 以單一複數卷積核取代狀態矩陣,大幅減少參數並避免梯度不穩定。
  • 導入動態幅度過濾,避開相位干擾並創下 85.7% 影像辨識準確率。

微軟研究團隊提出全新視覺狀態空間模型(SSM)架構 HAMSA,以 85.7% 的 ImageNet-1K 準確率創下 SSM 領域新紀錄。有別於傳統模型依賴複雜的二維影像掃描策略,HAMSA 完全捨棄空間上的掃描機制,直接轉往頻譜域(Spectral Domain)進行核心運算。這項架構變革讓硬體推論速度達到 4.2 毫秒,比 DeiT-S 變換器模型快 2.2 倍,推論記憶體與單次前向傳遞能耗亦分別大減至 2.1GB 與 12.5J,從根本上解決了序列模型處理視覺資料時的計算冗餘與離散化不穩定性。

突破二維影像掃描:視覺狀態空間模型的運算代價

傳統卷積神經網路(CNN)擅長局部特徵萃取,但難以捕捉長距離依賴關係;而視覺變換器(ViT)雖能有效建立全局連結,卻受限於複雜度的二次方增長。狀態空間模型(SSM,如 Mamba 或 S4)原本被視為理想的替代方案,能以線性複雜度維持長距離序列特徵。然而,這類模型本質上是為一維連續訊號或語言序列而設計,當要套用於缺乏自然起終點的二維視覺影像時,便遭遇極大的架構適應難題。

為了強行賦予影像一維順序,近期的視覺 SSM 發展出各種複雜的掃描策略。例如,Vim 模型採用將標記(Token)攤平的雙向掃描,VMamba 引入二維交叉掃描,SiMBA 則使用單向空間掃描。從理論層面檢視,這些掃描機制強加了虛假的因果關係,預設了影像區塊間原本不存在的時間先後順序。多方向掃描路徑不僅導致高達 $\mathcal{O}(4L^2)$ 的龐大運算成本,更在序列處理過程中產生了阻礙平行運算的資訊瓶頸。

研究團隊敏銳地指出,這些空間掃描動作在數學運算上完全是多餘的。SSM 的模型輸出本質上是線性非時變系統中的卷積運算($y = K \ast u$)。根據卷積定理,這完全等同於在頻率域中進行簡單的元素級乘法。影像本來就具有強烈的頻率結構分佈,低頻負責編碼全域形狀,高頻負責捕捉局部細節,根本不需要人工定義的空間走訪順序。

頻譜域運算革命:HAMSA 單一複數卷積核設計

為實現無掃描(Scanning-Free)架構,HAMSA 引入了簡化卷積核參數化機制。傳統 SSM 必須在架構中維護 $A$、$B$、$C$ 三個狀態矩陣,並透過零階保持(ZOH)等技巧進行連續時間步長的離散化轉換。這個過程不僅需要耗費 $N^2+2N$ 的龐大參數,其伴隨的指數與對數運算在深層神經網路中極易引發梯度不穩定性,這也是過去許多視覺 SSM 在訓練過程中容易崩潰的主因。

HAMSA 徹底屏棄了這套複雜的動態模擬系統,改為直接在頻率域定義一個具備全域視野的單一可學習複數卷積核。實作上,這個長度為 $L$ 的複數向量初始值從常態分佈隨機取樣,並直接跟隨網路進行梯度更新。此設計將卷積核的參數需求大幅壓縮至僅僅 $2L$,並徹底移除了離散化過程帶來的數值干擾風險。

團隊更透過「核通用近似定理」提出數學擔保。定理證明了任何由傳統矩陣生成的 SSM 卷積核空間,必定被完整包含於 HAMSA 的全複數向量空間內。只要搭配適當的正則化機制,單一複數卷積核就能以極高精度逼近任何複雜的傳統 SSM 濾波器。透過快速傅立葉轉換(FFT)的底層加速,該架構能在 $\mathcal{O}(L \log L)$ 的複雜度下完成全域資訊混波,平行運算效率遠超各類空間掃描演算法。

避開相位干擾:SpectralPulseNet 的動態過濾

雖然簡化的複數卷積核解決了全域運算的效率問題,但該卷積核的靜態特性使其缺乏適應力。為了讓模型具備依據不同影像內容動態調整重點的能力,HAMSA 導入了名為 SpectralPulseNet(SPN) 的動態頻譜過濾機制。這項設計克服了在複數空間中套用非線性啟動函數的數學障礙。

若直接對包含實部與虛部的複數頻譜套用 Sigmoid 函數,會造成嚴重的相位不連續性與梯度混亂。因此,SPN 的作法是先將轉換到頻譜域的輸入訊號取絕對值,萃取出純實數的幅度頻譜(Magnitude Spectrum)。接著透過一組可學習權重,將此幅度頻譜映射並產生專屬的實數過濾閘門,最後再將這組閘門與原本完整的複數頻譜進行元素級相乘。

此機制讓 HAMSA 在完美保留相位資訊的前提下,能夠智慧地抑制或放大特定頻段訊號。搭配特製的頻譜適應門控單元(SAGU)後,模型能在頻率域中建構雙通道運算路徑,一邊維持梯度的穩定流動,一邊透過動態過濾增強表達能力。特徵圖分析顯示,相較於 VMamba 容易產生網格狀的人造掃描痕跡,HAMSA 學習出的特徵濾波器展現出極其乾淨、無死角的頻率選擇性。

跨越硬體與精度的極限:ImageNet 準確率 85.7%

在實測表現上,去除掃描機制的 HAMSA 展現了跨維度的架構優勢。在指標性的 ImageNet-1K 分類任務中,HAMSA-L 大模型在無額外預訓練的條件下,達到了 85.7% 的最高準確率。這個數據不僅超越 SiMBA-L(84.4%)、VMamba-B(83.9%)等所有依賴掃描的 SSM 架構,更與 SVT-H-L 等旗艦級變換器模型並駕齊驅。

從硬體部署角度檢視,全面擁抱頻譜域釋放了可觀的效能紅利。在使用 Nvidia V100 GPU 進行實測時,HAMSA 的推論延遲僅需 5.1 毫秒。相較之下,架構相近的 DeiT 模型需要 15.5 毫秒,Swin 變換器需要 22.0 毫秒,就連標榜高效的掃描 SSM 模型(如 Vim 的 9.0 毫秒)也出現明顯落差。同時,HAMSA-S 的整體訓練時間約為 60 小時,僅為同級別 ViT 模型的三分之一。

不僅推論速度翻倍,資源佔用也大幅縮減。實驗指出,HAMSA-S 的推論期尖峰記憶體消耗為 2.1GB,比起 Swin-T 的 4.2GB 或是多向掃描 SSM(約 3.2 至 4.5GB)節省了近半空間;單次前向傳遞能耗為 12.5 焦耳,亦遠低於主流模型的 18 至 25 焦耳區間,充分迎合邊緣裝置的嚴苛限制。

零射擊學習與密集預測:下游視覺任務的優勢

HAMSA 在頻譜域學習到的純粹特徵,在下游轉移學習與密集預測任務中展現出高度泛化能力。將預先訓練的 HAMSA-B 模型微調後,在 CIFAR-10 資料集獲得了 99.1% 的準確率,並於史丹佛汽車(Stanford Cars)資料集取得 93.2% 佳績。研究團隊確認,將核心卷積長度設定為 $L=512$,是模型穩定性與特徵深度擷取的最佳甜蜜點。

在需求更細緻的物件偵測與實例分割任務(MS COCO 資料集)中,搭配標準 Mask R-CNN 框架,小型的 HAMSA-S 繳出了 47.9 AP 的偵測精度與 43.0 AP 的分割精度,強勢壓倒所有輕量級 SSM 競爭對手。這證實了不受空間順序侷限的頻率特徵,更能精準還原複雜場景的像素級細節。

與早期僅使用固定頻譜權重的網路模型相比,HAMSA 成功結合了 FFT 的平行極速運算與 SPN 的動態內容依賴性。這種既能一眼看穿全域結構,又能根據畫面特性動態微調頻率權重的特性,證明了直接在頻譜域進行運算,才是徹底發揮視覺狀態空間模型潛力的終極解答。

HAMSA 證明視覺模型不需受限於空間掃描,透過頻譜域的動態幅度過濾,即可以極低成本達成頂尖的影像辨識精度。

Abstract

Vision State Space Models (SSMs) like Vim, VMamba, and SiMBA rely on complex scanning strategies to adapt sequential SSMs to process 2D images, introducing computational overhead and architectural complexity. We propose HAMSA, a scanning-free SSM operating directly in the spectral domain. HAMSA introduces three key innovations: (1) simplified kernel parameterization-a single Gaussian-initialized complex kernel replacing traditional (A, B, C) matrices, eliminating discretization instabilities; (2) SpectralPulseNet (SPN)-an input-dependent frequency gating mechanism enabling adaptive spectral modulation; and (3) Spectral Adaptive Gating Unit (SAGU)-magnitude-based gating for stable gradient flow in the frequency domain. By leveraging FFT-based convolution, HAMSA eliminates sequential scanning while achieving O(L log L) complexity with superior simplicity and efficiency. On ImageNet-1K, HAMSA reaches 85.7% top-1 accuracy (state-of-the-art among SSMs), with 2.2 X faster inference than transformers (4.2ms vs 9.2ms for DeiT-S) and 1.4-1.9X speedup over scanning-based SSMs, while using less memory (2.1GB vs 3.2-4.5GB) and energy (12.5J vs 18-25J). HAMSA demonstrates strong generalization across transfer learning and dense prediction tasks.