MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis

Sicheng Chen, Chad Wong, Tianyi Zhang, Enhui Chai, Zeyu Liu, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

MambaBack 擊敗 7 款基準模型,成功突破巨量影像邊緣推論的記憶體瓶頸。

  • 導入希爾伯特採樣,有效保留全切片影像的二維空間特徵。
  • 整合門控卷積與雙向 Mamba,精準捕捉細胞細節與全域上下文。
  • 採非對稱分塊推論設計大幅壓低記憶體峰值,打破邊緣部署限制。

MambaBack 架構在 5 個公開資料集與 17,828 張全切片影像的測試中,擊敗了包含 TransMIL 在內的 7 種最先進基準模型。這項由加州大學爾灣分校與新加坡國立大學等機構提出的混合架構,解決了狀態空間模型處理巨量畫素影像時,容易流失二維空間特徵以及推論階段記憶體爆量的核心技術挑戰。

希爾伯特採樣保留全切片影像的二維空間特徵

全切片影像(WSI)分析在運算病理學中扮演著關鍵角色,其十億畫素級別(Gigapixel)的極大尺寸,使得多例學習(MIL)成為目前的標準分析框架。在傳統的兩階段 MIL 流程中,凍結的基礎模型會先從分割成 224 × 224 畫素的小圖塊中萃取特徵,隨後由 MIL 聚合器處理這些特徵以生成幻燈片級別的預測。近期,狀態空間模型(SSM)Mamba 挾帶來自自然語言處理領域的線性複雜度與全域建模優勢,逐漸成為熱門的骨幹網路。

然而,將生物組織的二維空間結構強制攤平為一維圖塊序列時,往往會破壞影像固有的二維空間關聯。現有的序列重新排序或 Z 階(Z-order)採樣策略,在面對病理組織非凸且不規則的形狀時,表現仍未達最佳水準。

為了尊重生物結構的拓撲連續性,研究團隊提出了希爾伯特採樣策略。該機制利用希爾伯特曲線的空間填充特性,在線性化的序列中最大化地保留了局部的空間鄰近性。透過將原始座標對應至密集網格以消除空白背景,再藉由象限遍歷遞迴計算索引,確保模型能維持對微環境的連貫感知。在訓練階段,這種策略還能作為一種空間擴充手段,確保模型從保留拓撲結構的連續片段中學習。

採用門控卷積與雙向 Mamba 的雙層級架構

在龐大影像分析任務中,模型必須在萃取細緻的細胞細節與聚合全域上下文之間取得微妙平衡。雖然狀態空間模型在高效的長序列建模表現優異,但在提取局部細胞結構微小、同質性高的圖案時,往往不如卷積神經網路(CNN)有效。

基於 MambaOut 等研究的啟發,研究團隊發現 Mamba 在局部特徵萃取上顯得冗餘,僅需門控卷積神經網路即可勝任。因此,MambaBack 提出了一種模仿縮放邏輯的階層式混合結構:首先部署一個 1D 門控卷積區塊作為局部特徵萃取器,捕捉高倍率的細胞特徵;接著再透過 BiMamba2 區塊,將局部特徵聚合為完整的組織層級表示。

在具體運作上,長度龐大的輸入圖塊序列會先被分割為多個局部片段。每個片段透過卷積處理後,經由局部門控注意力機制壓縮為單一的代表性標記(Token)。這個步驟能顯著縮減輸入序列的長度,大幅降低後續階段的運算負擔。隨後,雙向 Mamba 區塊會以從頭到尾與從尾到頭的雙向方式處理這些標記,捕捉橫跨整張切片的全域相依性,最終生成用於分類的幻燈片級別嵌入。

非對稱分塊設計降低邊緣裝置推論記憶體峰值

組織尺寸的先天差異會導致輸入序列長度產生劇烈波動,這在記憶體受限的邊緣裝置(如 FPGA 晶片)上進行推論時,極易引發記憶體不足(OOM)的崩潰問題。為了實現部署的成本效益與穩定性,研究團隊設計了非對稱分塊策略,將推論階段的記憶體需求與整張影像的總尺寸脫鉤。

在訓練階段,模型會將切片重塑為固定大小(如 64)的片段,並將所有片段平行輸入局部卷積與注意力機制中,以最大化 GPU 的平行運算效率。透過一次性的平行處理將序列大幅壓縮,後續的全域區塊便能在高度精簡的表示上運作,有效降低上下文建模的運算複雜度。

進入推論階段時,系統則改採分塊與累加機制來箝制記憶體峰值。演算法不會一次性處理整張切片,而是將序列拆分為迷你批次依序輸入。關鍵在於,每個批次在萃取出代表性標記後,其龐大的中間特徵圖就會立即被丟棄。這種設計讓局部階段的記憶體峰值保持在常數水準,讓模型能夠以幾乎可以忽略的記憶體開銷執行分類,同時保留了注意力機制的聚合能力以維持泛化性。

17828 張切片實測:全面擊敗七種基準模型

為了驗證全新架構的效能,研究團隊在涵蓋癌症分級、亞型分類以及整體存活率預測等 4 種下游任務的 5 個公開資料集上進行了廣泛實驗。模型透過凍結的 Prov-GigaPath 編碼器萃取特徵,並與 ABMILCLAM7 種最先進方法進行對比驗證。

實驗結果顯示,MambaBack 在所有基準資料集上皆取得了最佳表現。值得注意的是,包含 MambaMIL 與 MambaBack 在內的狀態空間模型,在穩定性與泛化能力上明顯優於容易發生過度擬合的 Transformer 架構。特別是在 CAMELYON17 與 PANDA 資料集的 F1 分數上,MambaBack 分別繳出 0.5130.733 的顯著提升,證實了階層式結構能夠有效兼顧微觀形態細節與分類精準度。

此外,消融實驗也進一步確認了個別設計的貢獻。相比於純粹的雙向 Mamba 或純粹的門控卷積,混合結構在各項指標上皆表現最優;而希爾伯特採樣策略也展現出最低的效能變異數。在記憶體耗用方面,MambaBack 成功實現了與輕量級模型相當的極低推論記憶體足跡,證明其能在資源受限的硬體上實現具備成本效益的即時運算部署。

融合局部卷積與全域 Mamba 的非對稱架構,有效克服了巨量影像在邊緣部署的記憶體瓶頸。

Abstract

Whole Slide Image (WSI) analysis is pivotal in computational pathology, enabling cancer diagnosis by integrating morphological and architectural cues across magnifications. Multiple Instance Learning (MIL) serves as the standard framework for WSI analysis. Recently, Mamba has become a promising backbone for MIL, overtaking Transformers due to its efficiency and global context modeling capabilities originating from Natural Language Processing (NLP). However, existing Mamba-based MIL approaches face three critical challenges: (1) disruption of 2D spatial locality during 1D sequence flattening; (2) sub-optimal modeling of fine-grained local cellular structures; and (3) high memory peaks during inference on resource-constrained edge devices. Studies like MambaOut reveal that Mamba's SSM component is redundant for local feature extraction, where Gated CNNs suffice. Recognizing that WSI analysis demands both fine-grained local feature extraction akin to natural images, and global context modeling akin to NLP, we propose MambaBack, a novel hybrid architecture that harmonizes the strengths of Mamba and MambaOut. First, we propose the Hilbert sampling strategy to preserve the 2D spatial locality of tiles within 1D sequences, enhancing the model's spatial perception. Second, we design a hierarchical structure comprising a 1D Gated CNN block based on MambaOut to capture local cellular features, and a BiMamba2 block to aggregate global context, jointly enhancing multi-scale representation. Finally, we implement an asymmetric chunking design, allowing parallel processing during training and chunking-streaming accumulation during inference, minimizing peak memory usage for deployment. Experimental results on five datasets demonstrate that MambaBack outperforms seven state-of-the-art methods. Source code and datasets are publicly available.