AJNR Ahead Full Text 2026-04-24

Hippocampal Segmentation Performance on 7T MRI: Intensity-Based Accuracy Assessment with Paired 3T-7T Volume Comparison across Multiple Algorithms [ARTIFICIAL INTELLIGENCE]

Cramer, J. A., Ikuta, I., Baxter, L. C., Parker, J. J., Wang, Y., Zhou, Y.

AI 導讀 academic AI 重要性 4/5

7T MRI 六演算法海馬分割評比：hippodeep 最準但仍系統性低估，NeuroQuant 0.54 mL 體積差導致常模百分位漂移 41 點

hippodeep 在 7T 精度最高（修正量 0.58 mL），但所有演算法都系統性低估海馬體積，兩兩差異均 P<.001
NeuroQuant 在 3T 與 7T 之間 0.54 mL 的差距，足以讓同一病患常模百分位跳動 41 點，萎縮判讀完全失準
7T 專屬常模資料庫尚未建立，現階段不應將 7T 海馬體積直接與 3T 歷史追蹤數字縱向比較

所有測試演算法在 7T MRI 上都系統性低估海馬體積——即使表現最佳的 hippodeep，與 3T 相比平均差距仍有 0.19 mL；商業軟體 NeuroQuant 在兩場強間的差距達 0.54 mL，足以讓同一位病患的常模百分位漂移整整 41 個點位。買了 7T 卻沿用 3T 常模的報告流程，你給出的海馬萎縮判斷可能已失去任何可靠的參照基準。

7T 海馬分割的演算法訓練空缺與臨床衝擊

7T MRI 的臨床部署正在加速，Siemens Magnetom Terra.X 已進入多個醫學中心，主要適應症包括阿茲海默症早期偵測與癲癇手術前評估——這兩項都高度依賴海馬體積測量。放射科醫師的日常流程中，商業分析軟體（最常見為 NeuroQuant）負責自動分割並與年齡校正常模比對，最後輸出一個百分位數供臨床決策。這套流程在 3T 時代已被廣泛驗證，然而所有主流海馬分割演算法——不論是深度學習架構或傳統圖譜配準方式——訓練資料均來自 1.5T 或 3T 掃描，從未接觸 7T 影像。7T 在組織對比度、訊雜比、磁化率偽影（susceptibility artifact）及部分容積效應上，與 3T 存在根本性差異，讓這批演算法面對 7T 資料時等同盲目操作。本研究以 Mayo Clinic Scottsdale 的回溯性資料，首次對六種常用演算法在 7T 上的表現進行系統性量化，並直接比對同一受試者在 3T 與 7T 之間的體積差異，是目前此類評估中規模最完整的一項。

雙佇列設計：單場強精度評估與成對跨場強比較

研究採用兩個獨立的回溯性佇列。第一佇列（7T 精度評估組，n = 269）：所有腦部 MRI 均在 Siemens Magnetom Terra.X 完成，採用 0.6 mm 等向性解析度 T1 MPRAGE 序列，每例均備有注射 Gadolinium 顯影劑前後的配對影像；顯影劑前後的強度差異作為體素分類的參照基準，讓研究者能在不需要人工手繪的情況下，量化每個演算法「分類錯誤的體素總體積」，稱為「總修正量（total correction volume，mL）」。第二佇列（3T–7T 跨場強比較組，n = 39）：每位受試者均有同機構的 3T 與 7T 配對 T1 MPRAGE，供直接成對體積比較。

7T 精度評估組測試六種演算法：AssemblyNet、e2dhipseg、FastSurfer、HippMapper、hippodeep、QuickNat。由於 QuickNat 在 7T 表現不達標而被直接排除出跨場強分析（論文未公開具體數字，但研究者的排除決定本身即代表肉眼可見的大範圍錯誤分割）；跨場強分析則新增了臨床最廣泛使用的商業軟體 NeuroQuant 5.0。演算法準確度以「總修正量」量化，數值越低代表分割越準確，無須人工金標準即可大規模施測。跨場強體積差異使用 Wilcoxon signed-rank test 進行配對檢定；演算法間整體排名以 Welch ANOVA 加 Tukey 事後檢定確認所有兩兩配對的差異是否顯著。

雙佇列研究設計摘要

佇列	案例數	掃描條件	主要用途
7T 精度評估組	269 例	Siemens Terra.X，0.6 mm T1 MPRAGE，顯影劑前後配對	六種演算法 7T 總修正量排名
3T–7T 跨場強比較組	39 對	同機構 3T + 7T 配對 T1 MPRAGE	體積差異與常模百分位漂移評估
7T 組測試演算法	6 種	AssemblyNet / e2dhipseg / FastSurfer / HippMapper / hippodeep / QuickNat	QuickNat 因表現不達標排除出跨場強分析
跨場強組測試演算法	5+1 種	同上去 QuickNat，加入 NeuroQuant 5.0	NeuroQuant 為臨床最廣泛使用商業軟體

資料來源：Mayo Clinic Scottsdale 單中心回溯性分析

五種演算法的 7T 精度排名與統計差異

在 269 例 7T 佇列中，五種演算法的總修正量排名如下：hippodeep 0.58 mL（最低、最準確）、e2dhipseg 0.67 mL、FastSurfer 0.78 mL、HippMapper 0.84 mL、AssemblyNet 0.89 mL（最高、最不準確）。Welch ANOVA 搭配 Tukey 事後檢定確認，所有演算法兩兩之間的差距均達統計顯著（P < .001），說明這個排名穩定可重複，並非樣本偶然造成的順序波動。

hippodeep 的相對成功可能來自其設計哲學：這個工具原本就是針對低解析度、不同場強環境的泛化需求設計，對訓練資料以外的影像特性具有較高的容錯能力。反之，AssemblyNet 採用多模型集成（ensemble）策略，在 3T 上通常是精度最高的選項，但在 7T 高對比環境下，集成投票機制可能被訓練時從未見過的訊號強度分布系統性拉偏，導致修正量最大。FastSurfer 作為 FreeSurfer 的深度學習加速版，以廣泛多樣的 3T 資料訓練，居中表現符合「泛化能力尚可但並非最佳」的預期定位。e2dhipseg 以 0.67 mL 緊追 hippodeep，顯示其二維切片輸入架構在應對 7T 的高解析度各向異性訊號時，反而沒有三維模型的過擬合問題。

各演算法在 7T MRI 的總修正量（mL）

修正量越低代表分割越準確；所有兩兩差異均 P<.001，hippodeep 以 0.58 mL 最低

3T 切換 7T 的體積低估與 41 點常模百分位漂移

在 39 對配對資料的跨場強比較中，所有演算法在 7T 測得的海馬體積均顯著小於 3T（P < .001），方向完全一致——沒有任何演算法出現逆向高估，說明這是 7T 訓練資料缺失造成的系統性偏誤，而非個別演算法的隨機雜訊。均絕對差異（mean absolute difference）的範圍從 hippodeep 的 0.19 mL 延伸至 HippMapper 的 1.54 mL，差距超過八倍，顯示演算法選擇在 7T 上對體積數字的影響遠比在 3T 環境下更具決定性。

最具臨床意義的發現是 NeuroQuant 5.0 的成對結果：平均體積差 0.54 mL，對應的常模百分位變動幅度為平均 41 個百分位點。這個數字背後的機制值得特別說明：NeuroQuant 使用大規模 3T 掃描建立的健康常模，常模分布曲線在兩端（極低或極高體積區間）比中央段更陡峭，因此微小的系統性體積低估會被非線性地放大為巨大的百分位跳動。一位在 3T 測得百分位 55（完全正常範圍）的受試者，若改以 7T 掃描輸入同一軟體，可能輸出百分位 14——落入「顯著低於同年齡常模」的萎縮警示區間——即使她的海馬一分鐘前才剛被判定正常。這不是演算法的技術故障，而是用錯誤參照框架解讀數據的系統性結構問題，單靠更新演算法無法解決。

3T 與 7T 配對比較的海馬體積均絕對差異（mL）

所有演算法 7T 均顯著低估（P<.001）；HippMapper 差距最大 1.54 mL，hippodeep 最小 0.19 mL

單中心回溯設計的限制與 7T 常模資料庫的缺口

作者在 Discussion 中坦承數項根本限制。首先，所有資料來自單一機構的單一 7T 機型（Siemens Terra.X），不同廠牌（Philips、Bruker）或不同線圈設置的 7T 系統未被涵蓋，跨機型的泛化能力不明。其次，本研究採用「體素強度修正量」作為精度代理指標，並非傳統 Dice Similarity Coefficient（DSC，重疊面積一致性），缺乏人工手繪的黃金標準，與其他文獻的直接數字比較需要謹慎。第三，39 對跨場強比較組規模偏小；若病患的 3T 與 7T 掃描之間有明顯時間間隔，生理性海馬體積變化可能混入差異訊號中。第四，所有演算法均以預設參數執行，未針對 7T 做任何客製化調整；NeuroQuant 等商業軟體未來若發布 7T 支援版本，結果可能改善。

對放射科同行的實際操作建議：若機構已啟動 7T 海馬分析流程，目前最安全的做法是（一）同時保留一組 3T 基線掃描作為病患內部參照，（二）報告中明確標注 7T 測量值與所用演算法，並附「現無 7T 驗證常模」的說明，（三）不得直接將 7T 測值與 3T 歷史追蹤數字做縱向比較，直至 7T 專屬常模資料庫建置並驗證完成。從更長遠的角度看，本研究最重要的貢獻或許不是告訴你哪個演算法最好，而是清楚說明：建置一個多中心、多機型的 7T 海馬常模資料庫，是讓 7T 神經影像真正進入臨床決策的必要前提，這一步若沒完成，7T 掃描的優越解析度反而可能製造更多虛假警報。

7T 掃下去、3T 常模解讀：同一顆海馬，0.54 mL 就差了 41 個百分位——常模年代比演算法品牌更重要。

Abstract

Graphical Abstract

Hippocampal Segmentation Performance on 7T MRI: Intensity-Based Accuracy Assessment with Paired 3T-7T Volume Comparison across Multiple Algorithms [ARTIFICIAL INTELLIGENCE]

7T 海馬分割的演算法訓練空缺與臨床衝擊

雙佇列設計：單場強精度評估與成對跨場強比較

五種演算法的 7T 精度排名與統計差異

3T 切換 7T 的體積低估與 41 點常模百分位漂移

單中心回溯設計的限制與 7T 常模資料庫的缺口

Abstract

🔗 相關推薦

單獨使用 AI 分析 CTA 血管形態預測中風 90 天預後，準確度 0.730 擊敗傳統 CTP 的 0.645，提供無 CTP 醫院的完美解方。

最新評測證明，Gemini 2.5 Pro 在加入影像後準確率激增至 70%，正式告別 AI 只會看文字通靈的時代。

打破 CTP 單一血流閾值迷思，3D nnU-Net 能針對「打通與否」雙情境，將最終梗塞預測準確率翻倍。