AJNR Ahead Full Text 2026-04-24

Comparative Evaluation of Deep Learning Models for 3D Segmentation and Volumetry of Vestibular Schwannomas Using Large Heterogeneous Data Sets with External Validation [ARTIFICIAL INTELLIGENCE]

Mehta, P. M., Yayli, S. B., Rai, P., Sonka, M., Blezek, D. J., Zhang, H., Silvera, V. M., Benson, J. C., Carlson, M. L., Erickson, B. J., Bathla, G.

View Original ↗

AI 導讀 academic AI 重要性 4/5

五模型頭對頭：U-Mamba 外部驗證 Dice 0.927 奪冠，但前庭神經鞘瘤 < 200 mm³ 時所有 AI 集體跌破 0.85

U-Mamba 在 241 人外部驗證集的 Dice 達 0.927，Foundation Model MedSAM 僅 0.899 墊底，CNN 自調架構整體優於通用大模型
腫瘤體積 < 200 mm³ 是五個模型共同的性能邊界，Dice 跌至 0.848–0.850；> 400 mm³ 才回到 0.925–0.932
前三名模型 Hausdorff95 僅 1.6 mm、RVE 僅 7–8%，nnUNet 自調超參框架部署最友善，適合無 AI 工程師的科室

被視為通用醫學分割工具的 MedSAM，在前庭神經鞘瘤三維分割五強對決中以 Dice 0.899 墊底——反而是 CNN 架構的 U-Mamba 以 0.927 奪冠。Mayo Clinic 聯合 Iowa 大學用近三千筆異質 MRI，把 foundation model 與傳統深度學習放上同一份考卷，結果比多數人預期的更務實。

前庭神經鞘瘤為何需要 3D 體積而非直徑

前庭神經鞘瘤（vestibular schwannoma，VS，又稱聽神經瘤）是橋小腦角最常見的良性腫瘤，約佔顱內腫瘤的 8%，多數患者確診後選擇觀察等待或立體定向放射外科（stereotactic radiosurgery，SRS）。判斷腫瘤是否「有意義地生長」是所有追蹤決策的核心，傳統用最大直徑量測，但直徑只取單一截面，對形狀不規則的 VS 容易漏掉真實的體積變化。三維體積量化能偵測直徑法無法識別的早期增長，對「繼續觀察 vs. 啟動 SRS vs. 手術」的時機判斷有直接影響。問題在於手動逐層圈出腫瘤輪廓極其耗時，一個系列追蹤患者往往需要在數十張 MRI 切面上重複標注，在神經放射科日常工作量下幾乎無法常規化。自動化 AI 分割若能在真實臨床資料上達到足夠一致性，就能把 3D 體積追蹤從「理想上應做」推進到「實際上可做」。

2,969 筆 MRI 與五模型架構的頭對頭設計

訓練與評估基於 Mayo Clinic 的 T1 增強 MRI：訓練集 2,692 筆掃描（383 位患者），內部測試集 277 筆（97 位患者）；另引入公開外部資料集（241 名患者）做獨立驗證，確保成績不是自家資料上的過擬合。資料集刻意保留採集異質性，涵蓋不同磁場強度、廠商設備與掃描參數，模擬多中心臨床部署的條件。五個受測模型代表三條技術路線：nnUNet Base 與 nnUNet ResEncL 是自動調整超參數的 CNN 架構，被學界公認為醫學影像分割的強力基準；U-Mamba 在 CNN 骨幹上融入 Mamba 狀態空間模型（一種比 Transformer 更省算力的長程空間依賴建模機制）；UNETR 採用純 Vision Transformer 主幹；MedSAM 則是 Meta 基於 Segment Anything Model 針對醫學影像微調的 foundation model，代表「大規模通用預訓練再遷移」路線。評估指標涵蓋輪廓精度（Dice 相似係數、Hausdorff 距離）與體積準確度（相對體積誤差 RVE），以及表面到表面距離（S2S）評估整體輪廓吻合程度。

外部驗證 Dice 0.899–0.927：U-Mamba 整體最佳

外部測試集的成績是最接近臨床部署真實預期的數字。五模型中位 Dice 介於 0.899 到 0.927 之間，U-Mamba 以 0.927 居冠，nnUNet Base 與 nnUNet ResEncL 緊隨其後，三者形成第一梯隊；UNETR 和 MedSAM 落於後段，MedSAM 的 0.899 是五模型最低值。前三名的空間誤差同樣穩健：中位 Hausdorff 距離為 3.59 mm，而 95th 百分位（Hausdorff95）僅 1.6 mm，代表即使是邊界偏差最大的少數案例，預測輪廓也不超過 1.6 mm 的偏移。S2S 距離全數 < 1 mm，中位 RVE 為 0.07–0.08，亦即預測體積與真實體積差異控制在 7–8% 以內。從臨床追蹤角度看，7–8% 的體積誤差在多數情境下不影響「長大 vs. 穩定」的判斷——業界通常以 20% 以上的體積增長作為有意義生長的門檻。

五模型外部驗證表現與部署適性比較

模型	架構類型	外部 Dice 排名	部署適性
U-Mamba	CNN + Mamba 狀態空間	第 1（0.927）	性能最佳，GPU 需求較高
nnUNet Base	純 CNN（自調超參）	前三名之一	★ 推薦，易部署
nnUNet ResEncL	CNN 殘差編碼（自調）	前三名之一	★ 推薦，易部署
UNETR	純 Transformer	第 4	泛化性略遜
MedSAM	Vision Foundation Model	第 5（0.899）	需本地 fine-tuning

CNN 系架構在 Dice 與泛化能力上整體優於 Foundation Model MedSAM；nnUNet 系列部署最友善

體積 < 200 mm³ 是五個模型的共同短板

次群組分析中，腫瘤體積是分水嶺最清楚的變數。體積 < 200 mm³ 的小腫瘤（大致相當於直徑約 7 mm 的球體），所有五個模型的 Dice 集體跌到 0.848–0.850，比大腫瘤水準低了約 0.08。這不是個別模型的弱點，而是五種架構共同面臨的挑戰：病灶小，絕對像素數目少，邊界雜訊對 Dice 的影響被放大，標注誤差在比例計算上佔更大比重。相反地，體積 > 400 mm³ 的大腫瘤，Dice 穩定維持在 0.925–0.932，跨越外部資料集的掃描異質性仍能保持如此水準，說明 CNN 系模型對中大型 VS 已達相當成熟的臨床可用性。這個閾值在日常工作有直接指引：新確診腫瘤尚小、SRS 後殘瘤縮小到 200 mm³ 以下的病例，AI 體積數字仍需人工複核；體積超過 400 mm³ 的病例，AI 輔助追蹤才最可靠。異質性分析也確認，前三名 CNN 系模型在不同掃描設備間的表現波動，明顯小於 UNETR 和 MedSAM，泛化穩定性更高。

腫瘤體積次群組 Dice 中位值比較（外部驗證集）

< 200 mm³ 小腫瘤的 Dice 比 > 400 mm³ 低約 0.08，為所有模型共同的性能邊界

限制與導入本院前的評估建議

作者坦承幾項值得關注的限制。訓練資料來自 Mayo Clinic 單一機構，儘管外部驗證顯示一定泛化能力，對更廣泛廠商組合和磁場強度的驗證仍是未竟工作。本研究的 MedSAM 未針對 VS 做 fine-tuning，若加入任務特定微調表現可能改善，但同時代表額外的本地化成本。小腫瘤（< 200 mm³）的性能短板是結構性問題，論文未提出改善方案，留待資料增強或專用架構的後續研究。從台灣醫院導入的視角看，nnUNet 系列的自動超參數調整特性讓它在無專職 AI 工程師的科室最為友善，不需手動調架構即可部署；U-Mamba 雖然 Dice 最佳，但 Mamba 模組對 GPU 環境有特定需求，部署複雜度略高。實際引入前，建議以外部驗證集數字（Dice 0.899–0.927）作為性能期望值基準，並在本院 MRI 掃描協議下完成本地驗證再全面推廣。

追蹤前庭神經鞘瘤別全信 AI：腫瘤體積縮到 200 mm³ 以下，五個模型都掉到 Dice 0.85——小腫瘤仍需你親眼複核，不是 AI 算完就算。

Abstract

Graphical Abstract

Comparative Evaluation of Deep Learning Models for 3D Segmentation and Volumetry of Vestibular Schwannomas Using Large Heterogeneous Data Sets with External Validation [ARTIFICIAL INTELLIGENCE]

前庭神經鞘瘤為何需要 3D 體積而非直徑

2,969 筆 MRI 與五模型架構的頭對頭設計

外部驗證 Dice 0.899–0.927：U-Mamba 整體最佳

體積 < 200 mm³ 是五個模型的共同短板

限制與導入本院前的評估建議

Abstract

🔗 相關推薦

單獨使用 AI 分析 CTA 血管形態預測中風 90 天預後，準確度 0.730 擊敗傳統 CTP 的 0.645，提供無 CTP 醫院的完美解方。

最新評測證明，Gemini 2.5 Pro 在加入影像後準確率激增至 70%，正式告別 AI 只會看文字通靈的時代。

打破 CTP 單一血流閾值迷思，3D nnU-Net 能針對「打通與否」雙情境，將最終梗塞預測準確率翻倍。