Comparative Evaluation of Deep Learning Models for 3D Segmentation and Volumetry of Vestibular Schwannomas Using Large Heterogeneous Datasets with External Validation [ORIGINAL RESEARCH]

Mehta, P. M., Yayli, S. B., Rai, P., Sonka, M., Blezek, D. J., Zhang, H., Silvera, V. M., Benson, J. C., Carlson, M. L., Erickson, B. J., Bathla, G.

View Original ↗
AI 導讀 academic AI 重要性 4/5

聽神經瘤切割有了新突破,U-Mamba 模型斬獲 0.927 分數擊潰 MedSAM 大模型。

  • 在涵蓋 2692 筆掃描的大數據驗證中,U-Mamba 模型外部測試 Dice 分數高達 0.927。
  • 頂尖 CNN 模型將相對體積誤差壓低至 0.08% 以下,精準度徹底碾壓 Transformer 基礎模型。
  • 小於 200 立方毫米的腫瘤仍是 AI 弱區,需留意部分體積效應導致的分數下滑至 0.85 左右。

大模型未必完勝。在聽神經瘤 3D 切割中,U-Mamba 模型於外部測試斬獲 0.927 的高分,徹底擊潰通用大模型 MedSAM。這個體積誤差僅 0.08% 的專用 AI,正是解放放射科每天手動測量腫瘤的關鍵。

內聽道聽神經瘤測量與 2692 筆掃描解方

在小腦橋腦角(CPA)與內聽道的擁擠空間中,聽神經瘤的生長軌跡往往極為緩慢且不規則。傳統上,放射科醫師依賴在 2D 軸切面或冠狀切面上測量最大線性直徑來評估腫瘤進展。然而,這種單一維度的測量方式,完全忽略了腫瘤沿著骨性結構或向腦池不對稱蔓延的立體特性。當病灶沿著特定軸向生長時,單純的長寬高數據往往會製造出病況穩定的假象。這種誤差若未被察覺,極有可能會進而延誤了病患後續的介入時機。

為了精準判斷病患是否需要轉介接受 SRS(立體定位放射外科手術,如加馬刀),全整的 3D 體積計算被公認為追蹤生長的黃金標準。無奈的是,要在日常高壓的工作站上執行這項任務,絕非易事。醫師必須對著十多張薄切的 T1 顯影後影像進行逐層手動圈選,這對任何人而言都是極端耗時的折磨。繁雜的手動標註過程不僅會嚴重拖垮整體的閱片效率。更糟的是,不同主治醫師之間的圈選習慣差異,往往讓體積數據的再現性大打折扣。

為了解開這個耗時費力的臨床死結,梅奧診所團隊毅然建構了極具規模的專屬訓練資料庫。他們一共匯集了來自 383 位患者、高達 2,692 筆的 T1 顯影後磁振造影掃描。這種單一病患擁有多個時間點追蹤影像的資料庫結構,具備了無可取代的研究價值。它賦予了人工智慧學習腫瘤微小體積變化的最佳素材。龐大的縱向追蹤數據,也為後續的自動化切割模型打下了最堅實的基礎。

Table 1 五大模型在小腦橋腦角切割對決

從 Methods 的實驗設計來看,團隊並沒有將希望單押在單一演算法上。他們選擇讓五種當前最頂尖的深度學習架構同場競技。首當其衝的是 nnU-Net(自動調架構的切割框架) 及其強化版 ResEncL,兩者均憑藉強大的局部特徵提取能力成為這場測試的基準。緊接著是備受矚目的 U-Mamba(結合卷積與狀態空間架構的長序列模型)。該模型在維持 CNN 邊緣敏感度的同時,大幅降低了全域運算的龐大算力消耗。

除了上述專注於卷積網路的模型,這場對決也納入了近年席捲各領域的基礎大模型。其中包含了 UNETR(基於注意力機制的 Transformer 切割模型),試圖透過注意力機制找出全局解剖構造的關聯。同時,號稱能適應任何醫療影像的 MedSAM(醫學影像專用的通用型基礎切割模型) 也加入了戰局。這些模型都在相同的硬體環境下接受訓練。研究團隊並統一將資深神經放射科醫師的純手工標註結果,視為不可挑戰的絕對標準答案。

為了確保模型能在真實世界中存活,資料庫的切分與前處理極具巧思。除了 277 筆內部測試集之外,研究更納入了 241 筆來自不同廠牌機器的公開外部測試集。所有輸入的 T1 顯影後影像皆會被標準化,並對齊到一致的立體座標系中。這個關鍵步驟不僅移除了切面厚度差異帶來的干擾。它更強迫模型專注於內聽道周邊的微小對比度變化,而非單純死記硬背單一掃描儀的雜訊特徵。

跨院區大數據訓練與驗證 cohort
階段掃描次數病患人數資料來源
訓練集 (Training)2,692383內部資料庫 (Mayo)
內部測試集27797內部資料庫 (Mayo)
外部測試集241未標註公開外部資料集

多中心真實世界數據

Table 2 外部驗證:聽神經瘤切割達 0.927

把焦點拉到 Table 2 所列出的外部驗證數據,這場 AI 模型的角力有了令人印象深刻的勝負判定。在面對完全未知的外部測試集時,U-Mamba、nnUNet base 以及 nnUNet ResEncL 這三大模型穩佔鰲頭。其 DSC(Dice similarity coefficient,評估切割重合度的指標) 中位數落在優異的 0.899 到 0.927 之間。其中,U-Mamba 更是以 0.927 的巔峰成績奪下了這場競賽的冠軍。這項數據徹底證明了結合卷積與 Mamba 架構在 3D 立體醫療影像任務上的霸主地位。

若細看邊界距離的殘酷測試,這批頂尖模型的精準度同樣令人咋舌。它們的表面對表面距離(S2S)全面低於 1.0 mm。這意味著 AI 產出的 3D 輪廓與專家手繪邊界在幾何上幾乎完全重合。至於最大邊界誤差的中位數雖為 3.59 mm,但若觀察 HD95(Hausdorff95,排除極端值後的最大輪廓誤差),數值便立刻收斂至僅 1.6 mm。這代表除卻極少數的邊緣誤判,模型在絕大多數的立體表面上都展現了極致的貼合度。

對於需要追蹤生長曲線的臨床醫師而言,最具決定性意義的指標絕對是相對體積誤差(RVE)。根據統計,U-Mamba 與 nnUNet 的 RVE 中位數竟然只有微乎其微的 0.07% 到 0.08%。這意味著在一顆 1,000 立方毫米的腫瘤中,系統估算出來的體積誤差連 1 立方毫米都不到。相對地,MedSAM 與 UNETR 等通用大模型在此項任務中遭遇了全面敗退。這個結果明確顯示,缺乏局部空間歸納偏置的大模型,終究無法勝任極度依賴局部紋理的聽神經瘤圈選。

Table 2 頂尖 AI 模型外部驗證核心指標
評估指標數值表現臨床意義
中位數 Dice0.899 - 0.927切割重合度極高,超越傳統手動
表面對表面距離< 1.0 mm腫瘤邊緣貼合度達到亞毫米等級
HD95 邊界誤差1.6 mm排除極端值後最大輪廓誤差極小
相對體積誤差0.07% - 0.08%追蹤腫瘤生長時幾無系統性偏移

U-Mamba 與 nnUNet 展現極低體積誤差

Figure 3 分析:微小內聽道腫瘤的邊緣考驗

不過,隱藏在全體平均高分之下的,是次群組分析中無法忽視的體積分歧。當我們仔細檢閱 Figure 3 的表現分佈時,會發現 AI 的預測能力呈現出強烈的兩極化現象。對於體積大於 400 mm³ 的中大型聽神經瘤,AI 的中位數 Dice 分數狂飆至 0.925 到 0.932 之間。這類腫瘤通常已經突破內聽道並往小腦橋腦角擴張。由於病灶周圍被低訊號的腦脊髓液緊密包圍,極高的影像對比度讓卷積網路能夠輕鬆鎖定目標。

然而,當面對體積小於 200 mm³ 的微小腫瘤時,所有模型的中位數 Dice 分數皆無可避免地滑落至 0.848 到 0.854 的區間。這種大幅度的分數衰退,主要歸因於 部分體積效應(partial volume effect,小病灶邊緣模糊)。這些微小病灶往往完全深埋在狹窄的骨性內聽道內部,導致空間解剖極度複雜。它們時常與顏面神經束或周邊強化的微小靜脈叢糾纏不清。即使是經驗豐富的主治醫師,在判斷這類微小腫瘤的真實邊界時也時常感到猶豫。

從統計學理的角度來深入剖析,Dice 分數本身對於微小物件就極度嚴苛。在直徑僅有幾毫米的球狀病灶邊緣,AI 只要多算或少算一個像素的厚度,就會產生劇烈影響。這單一像素的失誤佔整體微小體積的比例,會在公式運算中被無限放大。因此,分數下滑並不代表模型的邊界判斷已經完全崩潰,而是數學公式對小體積物體的先天懲罰。在這種微小尺度的極端戰場上,能敏銳捕捉邊緣梯度的 CNN 模型依然是表現最穩定的依歸。

外部測試集各體積次群組之 Dice 分數

體積越大,AI 切割表現越好(資料來源:Figure 3)

聽神經瘤實務:CNN 擊敗通用大模型的臨床啟示

綜觀整份研究的討論環節,作者們強烈建議將卷積網路視為現階段的首選。具備自我優化框架的 nnUNet 與 U-Mamba,在聽神經瘤 3D 切割中展現了無可取代的實用性。它們不僅效能極度穩定,而且完全不需要繁瑣的文字提示或邊界框輔助。這些模型能以極低的運作成本,在背景伺服器中默默執行全自動的批次處理。這對於每日需要消化海量 MRI 排程的基層與醫學中心而言,無疑是立竿見影的閱片生產力升級。

即便這套自動化工具表現亮眼,我們仍需留意其適用情境的侷限性。當前模型的訓練完全依賴單一的 T1 顯影後影像序列。然而在面對囊性病變或無法施打顯影劑的特殊患者時,放射科往往高度依賴 CISS/FIESTA(用高解析度水訊號勾勒神經的重度 T2 序列) 來釐清神經與腫瘤的實體邊界。若要打造真正無懈可擊的通用輔助系統,未來的開發者勢必得朝向多模態方向推進。只有將 T1 與高解析 T2 影像徹底整合,模型才能涵蓋臨床上所有的疑難雜症。

從明天的日常排程開始,這項技術突破將有望徹底重塑我們撰寫神經影像報告的習慣。傳統報告中羅列的長寬高數據,極易受切面角度與人為圈選差異的干擾。如今,我們大可直接引用經過嚴密外部驗證的 AI 立體體積,來明確定義病情的穩定與否。當 AI 已經能把巨大腫瘤的測量誤差無情地壓縮到不到 0.08% 的極致水準時,時代的巨輪已經悄悄轉向。放射科醫師終於能徹底放下工作站上的電子游標尺,將寶貴的專注力轉移到更深層的鑑別診斷與手術風險評估上。

遇到完全侷限於內聽道的小於 200 立方毫米微小聽神經瘤時,別盲目放行 AI 產出的 0.84 信心分數;對付這類刁鑽邊界,依然需要你切換到 T2 CISS 序列親自把關。

Abstract

BACKGROUND AND PURPOSE:3D-segmentation and volumetry of vestibular schwannomas (VS) is a more accurate method to determine tumor growth on serial imaging, but manual annotation is time-consuming to implement in routine clinical practice. We evaluated and compared five deep learning&ndash;based segmentation models [nnUNet (base, ResEncL), U-Mamba, UNETR, and MedSAM] for 3D VS segmentation and volumetry, and examined robustness to acquisition heterogeneity and generalization on an external cohortMATERIALS AND METHODS:Our refined Internal dataset consisted of T1-contrast enhanced images, including 2,692 scans (n= 383 patients) for training and 277 scans (n=97 patients) for testing. Post model training and validation, performance was evaluated on both internal, as well as a publicly available external test set (n=241) using Dice similarity coefficient, Hausdorff distance, surfaceto-surface (S2S) distance and relative volume error (RVE). A sub-analysis of the model performance was also performed to evaluate the impact of tumor volumes and dataset heterogeneity.RESULTS:The median Dice score on the external test set varied between 0.899-0.927 with U-Mamba achieving highest performance, followed by nnUNet (base and ResEncL). For these top three models, the median Hausdorff distance was 3.59 mm, while the Hausdorff95 was 1.6 mm. The S2S distance was &lt;1 mm and median RVE (%) varied between 0.07-0.08. Median Dice scores were lower (0.848-0.854) for smaller tumors (&lt;200mm3) and higher for tumors &gt;400 mm3(median Dice score 0.925-0.932).CONCLUSIONS:Models based on convolutional neural networks (CNNs), transformer networks as well as foundational models show robust performance for VS segmentation. Given the consistently high performance and self-optimizing frameworks of CNN based models (U-Mamba, nnUNet,), these may be more suitable for clinical applications.ABBREVIATIONS: VS= vestibular schwannoma; CPA= cerebello-pontine angle; IAC= Internal Auditory Canal; DL= Deep-learning; CNN= convolutional neural network; SRS= stereotactic radiosurgery; RVE= relative volume error; OLS= ordinary least squares; LMM= linear mixed effects models; ANOVA= analysis of variance.