Hippocampal Segmentation Performance on 7 Tesla MRI: Intensity-Based Accuracy Assessment with Paired 3T-7T Volume Comparison Across Multiple Algorithms [ORIGINAL RESEARCH]

Cramer, J. A., Ikuta, I., Baxter, L. C., Parker, J. J., Wang, Y., Zhou, Y.

View Original ↗
AI 導讀 academic MR 重要性 4/5

將 7T 腦部 MRI 丟進常規軟體測量海馬迴,竟會讓病人的萎縮百分位暴跌 41 分,正常大腦秒變重度失智。

  • 在 7T 未經重新訓練的海馬迴切割演算法中,hippodeep 需要修正的誤差體積最低 (0.58 mL),表現最穩定。
  • 同一病患的 7T 影像丟進目前軟體,算出的海馬迴體積會全數顯著小於 3T 掃描的結果 (p < 0.001)。
  • 商用軟體 NeuroQuant 在 7T 低估了 0.54 mL 體積,這點微小差距竟造成百分位數平均暴跌高達 41 分。

直接拿 7T 腦部 MRI 跑現有的海馬迴體積測量軟體,病人的常模百分位數會暴跌 41 分。隨著超高場強磁振造影進入常規臨床檢查,神經放射科醫師面臨全新的挑戰:目前市面上所有的自動化腦部切割演算法,全是在 1.5T 或 3T 資料上訓練出來的。當我們把更高解析度、對比特性截然不同的 7T 影像直接餵給這些演算法,體積低估將無可避免,甚至可能把正常人標記為重度失智症。

FDA 雖放行 7T,但海馬迴演算法全在 3T 訓練

探究神經退化性疾病(如阿茲海默症)或評估頑固型癲癇(如海馬迴硬化)時,海馬迴體積的精確量化至關重要。近年來,7 Tesla (7T) MRI 通過醫療法規核准並逐步推廣至各大醫學中心。放射科醫師極度期待它帶來的 0.6 mm 以下極致空間解析度,因為這能讓我們在不開刀的情況下,看清海馬迴內部的各個亞區(subfields)結構,甚至揪出微小的皮質發育不良。然而,在硬體突飛猛進的同時,我們日常仰賴的醫學影像軟體生態系卻遠遠沒有跟上腳步。

無論是學術界愛用的開源神經影像工具,或是已經取得 FDA 核准、在各醫院廣泛運行的商用定量軟體,其底層的神經網路與常模資料庫(normative database)依然停留在 3T 甚至是 1.5T 的時代。當磁場強度提升到 7T,影像的物理特性會發生本質上的變化:T1 弛豫時間(relaxation time)大幅延長,使得灰質和白質的對比度發生改變;同時,高頻射頻穿透大腦時造成的 B1 磁場不均勻性(B1 field inhomogeneity),也會導致影像各區域的信號強度分布不均。

面對這些截然不同的影像特徵,那些沒有針對 7T 重新訓練的「前朝遺老」演算法,還能精準抓出海馬迴的解剖邊界嗎?這篇來自 Mayo Clinic 的最新研究,透過龐大且嚴謹的真實數據,精準敲中了許多正準備引入或已經在使用 7T 設備的神經放射科醫師心中的最大疑問,並給出了一個不容忽視的危險信號。

269 例 7T 影像與 39 組 3T-7T 配對的設計細節

為了解開這個疑問,研究團隊建立並分析了兩組高價值的回溯性世代。首先是「7T 專屬準確度評估世代」,一共收錄了 269 例在 Siemens Magnetom Terra.X 掃描儀器上完成的腦部影像。這組龐大的資料包含注射對比劑前後的 T1 MPRAGE(高解析度 3D T1 結構造影序列),影像解析度全數達到驚人的 0.6 mm isovoxel(長寬高相等的立體像素,無死角重建)。他們一口氣測試了六種目前最主流的深度學習與傳統演算法:AssemblyNet、e2dhipseg、FastSurfer、HippMapper、hippodeep 以及 QuickNat。

要在一張 0.6 mm 厚度的影像上手動一筆一劃圈選海馬迴當作黃金標準,不僅曠日費時,也容易產生主觀誤差。因此,作者巧妙採用了基於體素強度的校正指標(voxel intensity-based correction metrics)來客觀評估各個軟體的切割品質。這套方法會自動偵測演算法圈出的範圍內,有多少體素的信號強度其實是腦脊髓液或白質的誤判,藉此精算出需要被修正的誤差體積。

研究的第二個階段則是「3T-7T 跨磁場比較世代」,團隊找出了 39 位在短時間內同時接受過 3T 與 7T 掃描的受試者。這個世代的目的是為了測試同一顆大腦,在不同磁場下交給軟體算出來的體積究竟差多少。值得注意的是,在這個階段中,QuickNat 因為在 7T 影像上表現過於崩潰,完全無法產出具備解剖學意義的輪廓而被直接剔除。取而代之的,是研究團隊加入了目前臨床實務上最廣泛使用的 FDA 核准商用軟體 NeuroQuant 5.0,讓研究更貼近真實醫院的作業場景。

研究流程與世代受試者設計
世代名稱樣本數量影像特徵納入比較演算法
7T 專屬準確度評估269 例0.6 mm isovoxel 3D T1hippodeep, e2dhipseg, FastSurfer 等 6 款
3T-7T 跨磁場比較39 位配對的 3T 與 7T 掃描加入 NeuroQuant 5.0,剔除 QuickNat

雙世代設計以驗證單機準確度與跨磁場誤差

hippodeep 的 0.58 mL 總校正體積奪得最佳準確度

在純粹針對 7T 影像的準確度對決中,核心的評估標準是「總校正體積(total correction volume)」。這個數字越低,代表演算法一開始切錯的體積越少,也就是它對於超高場強影像的抗干擾能力越強。從數據表顯示的結果來看,hippodeep 擊敗了所有競爭對手,總校正體積僅需 0.58 mL,成為在未經 7T 訓練前提下表現最穩定的選擇。緊追在後的是 e2dhipseg,需要校正 0.67 mL,以及 FastSurfer 的 0.78 mL。

相對而言,表現較不理想的則是 HippMapper(需要校正 0.84 mL)與 AssemblyNet(需要校正 0.89 mL)。考量到正常成年人的單側海馬迴總體積通常也只有 3 到 4 mL 左右,接近 1 mL 的校正量代表演算法切出了超過百分之二十的嚴重誤差。

研究團隊利用 Welch ANOVA(變異數不相等時使用的變異數分析,用來克服各演算法誤差變異範圍大相徑庭的問題)與 Tukey post-hoc(多重比較的事後檢定,找出誰跟誰有顯著差異)進行嚴格的統計檢驗。結果確認,這五套演算法之間的兩兩配對比較,全數達到極度顯著的統計差異(p < 0.001)。換句話說,在缺乏針對 7T 重新訓練與微調的情況下,演算法的先天神經網路架構與特徵提取方式,直接決定了它們在超高場強下的存活能力。hippodeep 之所以能勝出,很可能歸功於其網路架構對於對比度漂移與解析度暴增具備較強的容忍度。

各演算法在純 7T 影像上的總校正體積

數值越低代表切錯的誤差體積越少,hippodeep 表現最佳

0.54 mL 體積被低估竟導致常模狂跌 41 個百分位

這是整篇論文最震撼的一節,徹底指出了將 3T 軟體直接用於 7T 影像的致命危險。當我們把焦點轉向那 39 位擁有配對影像的受試者時,在 3T-7T 配對分析中發現了一個令人背脊發涼的系統性偏誤:所有被測試的演算法在 7T 影像上算出來的海馬迴體積,全部都顯著小於同一個人在 3T 影像上的體積(p < 0.001)。

即使是最穩定的 hippodeep,在 7T 算出的平均絕對體積依然比 3T 短少了 0.19 mL;而表現最慘的 HippMapper,兩者差距更是高達 1.54 mL。更關鍵的是,當研究團隊使用臨床上最重要的把關者 NeuroQuant 來進行分析時,3T 和 7T 的平均海馬迴體積差距達到了 0.54 mL。

這個 0.54 mL 的絕對數字看似微不足道,但在臨床實務中卻引發了災難性的連鎖反應。由於 NeuroQuant 的核心價值在於將病人的體積轉換為常模百分位數(normative percentiles),而這個轉換曲線對於年齡與顱內總體積極度敏感,這短短 0.54 mL 的縮水,竟然造成了受試者平均高達 41 分的百分位數暴跌。

請想像一個極其真實的臨床情境:一位記憶力稍微衰退的 65 歲患者,原本如果做 3T 掃描,他的海馬迴體積落在健康的第 50 百分位。但因為我們想給他「最好最清晰的影像」,安排了 7T 掃描,然後把影像直接丟進醫院現有的 NeuroQuant 系統。結果電腦自動產出的定量報告,直接跳紅字顯示病人的海馬迴落在第 9 百分位。神經內科醫師看到這份報告,可能就會立刻啟動昂貴的失智症單株抗體治療,或是給患者家庭帶來不必要的巨大恐慌。這就是系統性低估帶來的巨大危害。

缺乏專屬 7T 常模資料庫前,神經影像應謹慎

作者在 Discussion 中坦承,這項研究存在一些不可忽視的限制條件。首先,研究高度依賴單一醫學中心與單一廠牌(Siemens)的 7T 掃描儀器。不同廠牌設備的射頻發射器與接收線圈設計不同,可能會產生不一樣的磁場不均勻性,進一步影響 T1 對比度與演算法的判讀。其次,基於體素強度的校正方法雖然客觀且可量化,但這終究是一種數學估算,仍然無法完全取代病理切片或頂尖神經解剖學家的人工微觀檢驗。

對於第一線的神經放射科醫師而言,這篇研究給出了一個極度明確的臨床使用防線:7T MRI 在純粹的視覺解剖評估上是無可匹敵的工具,能讓我們看清海馬迴內部的微小硬化或細節;但是,目前的商用定量軟體完全無法勝任 7T 影像的跨磁場推論。在各大軟體原廠推出經過 7T 大量健康受試者驗證的全新 normative database 之前,我們絕對不能將 7T 跑出來的體積百分位數直接寫進正式的醫療報告中。

現階段,如果神經內科或精神科醫師強烈要求提供精確的失智症海馬迴定量數據,請明確告知他們 7T 影像在現行軟體下會產生嚴重的假性萎縮(pseudo-atrophy)現象。如果必須提供具備法律效力與治療指引參考價值的定量分析報告,退回 3T 掃描依舊是我們唯一的、也是最安全的防線。

只要定量軟體還沒針對 7T 建立全新的常模資料庫,千萬別把 7T 算出的海馬迴百分位寫進失智症報告裡,那會讓完全正常的大腦瞬間變成重度萎縮。

Abstract

BACKGROUND AND PURPOSE:Clinical adoption of 7 Tesla (7T) MRI is increasing, yet the performance of commonly used hippocampal segmentation algorithms, none of which are trained on 7T data, remains largely uncharacterized. This study evaluates segmentation accuracy at 7T using a voxel intensity&ndash;based method and examines volumetric differences between paired 3T and 7T hippocampal segmentations.MATERIALS AND METHODS:Two retrospective datasets from a single center were analyzed. For the 7T-only accuracy assessment cohort, 269 brain MRI studies performed on a Siemens Magnetom Terra.X with paired pre-and post-contrast T1 MPRAGE sequences (0.6 mm isovoxel) were utilized. For the 3T&ndash;7T cross-field comparison cohort, 39 unique subjects were identified with both 3T and 7T precontrast T1 MPRAGE sequences. Hippocampal segmentation was performed on the 7T-only cohort with AssemblyNet, e2dhipseg, FastSurfer, HippMapper, hippodeep, and QuickNat. QuickNat was removed from the 3T-7T cohort due to poor performance at 7T, and NeuroQuant 5.0 was added. Voxel intensity&ndash;based correction metrics quantified segmentation accuracy at 7T, with lower total correction volumes indicating better performance. Paired 3T&ndash;7T volume differences were assessed using the Wilcoxon signed-rank test, and corresponding NeuroQuant normative percentiles were also compared.RESULTS:At 7T, hippodeep achieved the lowest total correction volume (0.58 mL), followed by e2dhipseg (0.67 mL), FastSurfer (0.78 mL), HippMapper (0.84 mL), and AssemblyNet (0.89 mL). Welch ANOVA with Tukey post-hoc testing confirmed significant pairwise differences between all algorithms (p &lt; 0.001). In the paired 3T&ndash;7T analysis, all algorithms yielded significantly smaller 7T volumes (p &lt; 0.001), with mean absolute differences ranging from 0.19 mL (hippodeep) to 1.54 mL (HippMapper). NeuroQuant volumes differed by 0.54 mL, corresponding to a mean 41-point shift in normative percentiles.CONCLUSIONS:Hippodeep required the least total correction at 7T and had the smallest 3T&ndash;7T volume differences, suggesting it offers the most consistent cross-field performance among tested methods. However, consistent 7T volumetric underestimation across algorithms and the associated large normative percentile shifts from small volume changes indicate that a dedicated 7T normative database is necessary for meaningful clinical use.ABBREVIATIONS: MNI = Montreal Neurological Institute; HSD = honestly significant difference; T = Tesla.