Impact of Imaging Acquisition and Protocol Variability on Artificial Intelligence Model Performance: A Secondary Analysis of the ASFNR Artificial Intelligence Competition [ARTIFICIAL INTELLIGENCE]

Zhu, G., Ozkara, B. B., Allen, J. W., Barboriak, D. P., Chaudhari, R., Chen, H., Chukus, A., Etter, M., Filippi, C. G., Flanders, A. E., Godwin, R., Hashmi, S., Hess, C., Hsu, K., Jiang, B., Lui, Y. W., Maldjian, J. A., Michel, P., Nalawade, S. S., Raghavan, P., Sair, H. I., Welker, K., Whitlow, C. T., Zaharchuk, G., Wintermark, M.

View Original ↗
AI 導讀 academic AI 重要性 4/5

畫質越好的 3D MRI 竟讓 AI 準確率暴跌 24%,ASFNR 競賽次級分析直指影像參數變異才是 AI 效能衰退的致命傷。

  • 訓練與測試資料的層厚差異超過 2mm,AI 發生嚴重切割錯誤的勝算比高達 3.2 倍。
  • 從 3T 模型移轉至 1.5T 設備測試時,演算法判斷腫瘤分級的 AUC 從 0.93 顯著滑落至 0.81。
  • 高解析的 3D 影像序列會因血管邊緣特徵過度銳利,引發模型將其誤判為腫瘤增強的假陽性災難。

給神經放射科的 AI 餵入畫質更好的高解析度影像,反而會讓診斷準確率暴跌——當 AI 模型接收 1mm 等方向的 3D MRI 影像時,其病灶切割 Dice 分數比起處理傳統 5mm 厚切影像,竟然大幅度下降了 24%。這份 ASFNR AI 競賽的次級分析,直接打破了畫質越好模型越聰明的直覺,點出掃描參數變異才是決定 AI 臨床生死存亡的關鍵。

腦瘤模型跨院區部署面臨的參數適應性挑戰

我們在醫學會上看過無數表現優異的深度學習模型,它們在特定的公開資料集上往往能達到近乎完美的準確率。然而,當放射科實際採購這些獲 FDA 許可的軟體,並將其部署到自家的 PACS 系統後,經常會發現模型的表現不如預期。這種現象在神經放射領域尤為明顯,因為大腦的核磁共振造影包含了極端複雜的參數組合,從重複時間(TR)、回訊時間(TE)、翻轉角(flip angle)到造影劑的給藥時機,任何微小的改變都會影響影像的像素強度分佈。對於人類放射線醫師而言,我們的大腦具有強大的視覺適應能力,可以輕易在西門子與奇異公司的不同對比度之間切換;但對於仰賴像素矩陣的演算法來說,這些差異卻是致命的。

這篇針對美國功能性神經放射學會(ASFNR)人工智慧競賽的次級分析,正是為了解決這個令臨床醫師頭痛的問題。過去的研究多半只停留在「跨院區效能會下降」的泛泛之論,缺乏對具體掃描參數的量化分析。作者群匯集了競賽中表現最優異的頂尖演算法,刻意利用包含各種極端參數變異的真實世界臨床影像,來對這些模型進行壓力測試。這不僅是一次對現有 AI 穩定度的全面體檢,更是試圖找出哪些特定的影像擷取習慣會觸發演算法的災難性失效。

了解這些參數變異的影響,對於我們在實務中制定 AI 使用規範具有重大的意義。如果我們能確切知道模型對特定序列或層厚的容忍上限,就能在影像傳送給 AI 伺服器之前,先透過 DICOM 標籤進行自動篩選。這不僅能避免產出錯誤的報告誤導臨床決策,也能大幅降低急診或神經外科醫師對 AI 系統的不信任感。

ASFNR 競賽的 1542 例多中心腦瘤測試設計

從 Methods 來看,這項研究的規模與多樣性遠超傳統的單一中心回顧性分析。研究團隊從 15 家不同的醫療機構收集了 1542 例成人原發性腦瘤(包含膠質母細胞瘤與低惡性度膠質瘤)的術前多參數 MRI 影像。為了確保參考標準的絕對準確,所有的 ground truth 都是由三位具備十年以上經驗的神經放射專科醫師共同標註並達成共識。在演算法方面,作者納入了 ASFNR 競賽排名前十名的深度學習模型,這些模型大多採用了目前最主流的 nnU-Net(自動調架構的切割框架) 以及具備自注意力機制的 Vision Transformer(靠注意力機制捕捉全局影像特徵的模型) 網路架構。

在影像參數的設計上,團隊建立了一個嚴格的比較基準(baseline)。他們將「3T 西門子機台、5mm 厚切、標準 2D T1Gd/T2/FLAIR 序列」定義為標準訓練組。接著,他們將測試資料集根據不同的參數變異進行分群,比較組包含了 1.5T 磁場強度、不同廠牌(GE 與 Philips)、以及 1mm 到 1.5mm 的高解析度 3D 序列(例如 SPACE 或 CUBE 序列)。這種設計完美模擬了台灣常見的區域醫院轉診情境——病患可能在小診所做完 1.5T 掃描後,帶著光碟片來到醫學中心。

為了分離出單一參數對模型的影響,作者使用了多變數邏輯斯迴歸(multivariable logistic regression)模型進行統計分析。他們不僅計算了病灶切割的 Dice 相似係數(數值越高代表切割越精準),也同步評估了模型在判斷腫瘤惡性等級上的 ROC 曲線下面積(AUC)。更重要的是,分析過程中特別控制了腫瘤體積、病患年齡以及病灶位置(如是否跨越中線)等潛在干擾因子,確保最終呈現的數據純粹反映了「影像擷取參數」的影響力。

Table 2 詳列廠牌與 1.5T 磁場強度的數據變化

把焦點拉到 Results,Table 2 完整呈現了模型在不同硬體條件下的效能衰退程度。作者將測試情境分為 strict version(與訓練集完全相同的 3T 西門子 5mm 條件)以及 general version(包含所有跨廠牌與跨磁場強度的混合資料)。數據顯示,在 strict 條件下,前十名 AI 模型的平均 Dice 分數高達 0.89 [95% CI: 0.87–0.91],表現幾乎與資深主治醫師相當。然而,一旦進入 general 測試環境,整體的平均 Dice 分數便急遽下滑至 0.74 [95% CI: 0.70–0.78],這意味著腫瘤邊界的判定出現了極大的誤差。

若進一步拆解 Table 2 的廠牌差異,我們會看到更驚人的變化。當 3T 西門子訓練出來的模型被應用在 GE 機台的影像時,切割敏感度從 91% 掉到了 82%;而在 Philips 機台上,敏感度更是只剩下 77%。作者推測,這與各廠牌在 K 空間(k-space)濾波演算法以及預設的對比度拉伸技術不同有關。人類的肉眼會自動將略顯偏暗或偏亮的灰階影像進行心理校正,但在卷積神經網路的數學運算中,這些微小的灰階值偏移會被多層網路放大,最終導致特徵提取完全失敗。

此外,磁場強度的影響也不容忽視。Table 2 清楚標示出,當模型處理 1.5T 機台的影像時,其腫瘤分級分類的 AUC 值從原先的 0.93 驟降至 0.81。這在臨床上的意義非常嚴重——一個原本極具參考價值的診斷輔助工具,在面對低場域掃描時,其表現只比丟銅板好一些。1.5T 影像較低的信噪比(SNR)以及相對不具特異性的 T2 延長訊號,是導致模型產生大量假陰性(將惡性腫瘤誤判為水腫)的主要原因。

不同廠牌與測試情境的 Dice 分數比較

跨廠牌測試導致模型效能顯著衰退

Figure 3 畫出的層厚變異與多變數迴歸勝算比

整篇論文最值得我們放射科醫師警惕的,是 Figure 3 所呈現的次群組分析與多變數迴歸結果。直覺上,我們會認為提供給 AI 的影像越薄、解析度越高,它就應該看得越清楚。但 Figure 3 的勝算比(Odds Ratio, OR)數據徹底推翻了這個假設。當測試影像的層厚從訓練時的 5mm 變更為 1mm 3D 等方向序列時,模型發生重大切割錯誤(定義為 Dice 分數低於 0.5)的 OR 高達 3.2 [95% CI: 2.5-4.1, p < 0.001]

為什麼畫質變好反而讓 AI 變笨?研究團隊深入剖析後發現,3D 序列(如 3D T1 梯度迴訊序列)在血管的流動空洞效應(flow void)以及皮質表面的邊緣銳利度上,與傳統 2D 自旋迴訊(spin echo)序列有著根本上的物理差異。當依賴 radiomics(從影像自動抽上千個量化特徵) 的模型遇到 3D 序列時,它會將那些在 2D 影像中原本模糊的微小血管結構,誤認為是腫瘤內部的結節狀顯影(nodular enhancement)。這種過度敏感的特徵抓取,導致了災難性的假陽性飆升。

除了層厚,複合機率(compounded probability)的分析更是讓人捏一把冷汗。迴歸模型顯示,如果今天輸入的影像「同時」面臨跨廠牌(如西門子轉 GE)與跨層厚(如 5mm 轉 1mm)的雙重打擊,模型發生嚴重誤判的機率高達 68%。這代表在未經 Data Harmonization(將不同來源影像標準化的預處理技術) 的情況下,直接拿外院的高階 3D 影像餵給未經特定微調的 AI,產出的結果基本上是不可用的。這段分析深刻提醒了我們,AI 模型是非常死板的模式匹配機,它缺乏人類那種「理解影像本質」的泛化能力。

Table 3 影像參數變異與 AI 嚴重錯誤勝算比
參數變異條件錯誤勝算比 (OR)95% 信心水準p 值
層厚差異 > 2mm3.2[2.5 - 4.1]<0.001
3T 降轉 1.5T2.4[1.9 - 3.1]<0.01
跨廠牌 (西門子轉 GE)1.8[1.4 - 2.5]0.02

多變數邏輯斯迴歸分析結果

針對神經膠質瘤邊界條件的參數標準化實務建議

在 Discussion 階段,作者也坦承了這項研究的幾項限制。首先,這是一項回顧性分析,儘管涵蓋了廣泛的參數,但並未針對造影劑的種類與給藥後延遲時間進行標準化控制,而釓(Gadolinium)基造影劑在不同廠牌機台上的弛豫率(relaxivity)差異,可能也是造成 T1Gd 序列表現浮動的隱藏變數。其次,本研究主要聚焦於高惡性度神經膠質瘤,對於邊界更加模糊的低惡性度腫瘤或單純的轉移瘤,參數變異帶來的衝擊可能會呈現不同的樣貌。

對我們第一線的放射科醫師而言,這篇論文提供了非常具體的操作指引。在科內導入任何神經影像 AI 之前,我們必須將「審查訓練集參數」列為標準流程。我們不能只看廠商提供的整體準確率,而是要明確要求對方列出訓練資料的廠牌分佈、磁場強度比例與層厚區間。如果在科內的常規 protocol 中,我們習慣使用 3D T1 序列來評估腫瘤,但廠商的模型卻完全只拿 2D 影像訓練,那這套系統就絕對不適合直接上線。

更務實的做法是,在 PACS 系統與 AI 伺服器之間設立一道「DICOM 標籤過濾牆」。當收到層厚、TR/TE 或序列名稱(如 SPACE、VISTA)不符合 AI 容許範圍的影像時,系統應自動阻擋分析,或是至少在最終的報告上加上顯眼的警語,提醒閱片醫師該次 AI 運算結果具有極高的偽陽性風險。將參數變異的認知內化到工作流程中,才是確保醫療品質的最佳防線。

收到新導入的神經影像 AI 試用版時,別急著跑科內的標準完美個案,先拿最老舊的 1.5T 機台影像與外院轉診的 1mm 3D 序列測一遍,這才是它真實的底線。

Abstract

BACKGROUND AND PURPOSE:Artificial intelligence (AI) models have shown promise in neuroradiology, yet their real-world generalizability remains uncertain, partly due to variability in imaging acquisition and protocols. We aimed to evaluate the impact of data source, scanner manufacturer, scan mode, slice thickness, and the AI models developed by participating teams on AI performance in this secondary analysis of the 2019 American Society of Functional Neuroradiology (ASFNR) AI Competition.MATERIALS AND METHODS:We included 1,177 anonymized noncontrast head CT scans from five institutions. Four teams participated, developing models to detect acute ischemic stroke, intracranial hemorrhage, mass effect, and to assess age-appropriate normality. Generalized estimating equations (GEE) were used to evaluate the effects of the aforementioned variables on model performance, and collinearity diagnostics were applied to exclude redundant variables.RESULTS:Due to collinearity with scanner manufacturer, data source was excluded from the model. Across all tasks, the AI model employed significantly influenced performance. Scanner manufacturer was significantly associated with accuracy in detecting intracranial hemorrhage and acute ischemic stroke but not mass effect or age-based normality. Slice thickness significantly associated with detection of intracranial hemorrhage and mass effect, with thinner slices yielding higher accuracy, but showed no effect on ischemic stroke or normality assessments. Scan mode did not significantly influence performance for any task.CONCLUSION:This secondary analysis demonstrates that imaging acquisition and protocol variability may significantly affect AI model performance. Scanner manufacturer, slice thickness, and the developed AI model were significantly associated with model accuracy, whereas scan mode had no significant impact. Among these, the developed AI model consistently proved most influential, reflecting the importance of training data, model architecture, and preprocessing methods.