Radiomics and Artificial Intelligence in Multiple Sclerosis MRI: A Comprehensive Review [ARTIFICIAL INTELLIGENCE]
AI 突破肉眼極限:萃取 T2 影像隱藏紋理,精準鑑別多發性硬化症與預測未來失能。
- AI 模型萃取 T2 影像紋理,預測 MS 患者未來失能惡化的 AUC 高達 0.84。
- 跨疾病鑑別表現卓越,模型結合放射組學特徵區分 MS 與 NMOSD 的 AUC 達 0.91。
- 模型具備解剖盲區:評估腦室旁病灶極準確,但處理皮質與幕下病灶時預測力會大幅暴跌。
常規 T2/FLAIR 影像上看似穩定的多發性硬化症病灶,AI 卻能提前兩年預測患者即將面臨的失能惡化,準確度 AUC 高達 0.84。這份 2026 年 AJNR 發表的系統性回顧明白指出,單看大腦斑塊數量與體積的傳統閱片模式已經面臨瓶頸;肉眼無法察覺的像素級紋理異質性,才是決定病患未來神經功能衰退軌跡的關鍵指標。
突破肉眼極限:T2 影像隱藏的 0.84 預測力
多發性硬化症(Multiple Sclerosis, MS)的影像評估長期存在一個著名的「臨床-影像悖論」:患者大腦 MRI 上的病灶體積與數量,往往與其真實的臨床失能程度不成正比。放射科醫師每天在工作站前仔細測量 T2/FLAIR 高訊號病灶的變化,卻難以精準回答神經內科醫師最關心的問題:「這個病人明年會不會需要依賴輪椅?」這篇涵蓋十年的回顧性論文,清楚指出了 radiomics(從影像自動抽上千個量化特徵)結合人工智慧,正是填補這項預後評估鴻溝的有效武器。
作者團隊回顧了人工智慧如何從傳統的病灶型態學,跨越到肉眼無法解析的微觀特徵。當病灶內部的發炎、髓鞘脫失、軸突損傷與膠質細胞增生同時發生時,單純的 MRI 訊號強度平均值會掩蓋這些複雜的病理變化。透過擷取灰階共生矩陣(GLCM)與灰階長度矩陣(GLRLM)等多維度紋理特徵,AI 模型能夠捕捉到病灶內部的像素空間排列規律。這些特徵反映了組織微環境的混亂程度,進而為臨床決策提供了傳統放射學無法給予的量化基礎。
這不僅是學術界的演算法火力展示,更是為了解決實際的臨床需求。對於早期 MS 患者,若能利用初次診斷時的 MRI 影像就準確預測未來的疾病活躍度,臨床醫師便能更有底氣地及早投予高強度且高風險的疾病修飾療法(DMT)。這篇綜述全面檢視了過去十年將 radiomics 應用於 MS 的 26 篇核心文獻,試圖為放射科與神經科醫師勾勒出一幅 AI 輔助診斷與預後評估的實戰藍圖。
26 篇文獻的 Methods 拆解與 Table 1 收案輪廓
從文獻搜尋的 Methods 來看,研究團隊在 PubMed 與 Scopus 兩大資料庫中,鎖定了 2015 年至 2025 年間發表的相關研究。經過嚴格的篩選條件,最終共有 26 篇高質量文章被納入分析。這些研究的受試對象涵蓋了不同階段的 MS 患者,從臨床孤立症候群(CIS)到復發緩解型(RRMS)以及次發進展型(SPMS),提供了跨越整個疾病光譜的數據切片。
根據 Table 1 彙整的收案輪廓,這 26 篇研究中約有 45% 使用了傳統的機器學習模型,例如 SVM(畫線將高維度數據分類的機器學習)與隨機森林(Random Forest);而另外 55% 則採用了更為先進的深度學習技術,包含 CNN(模仿視覺神經的深度學習卷積網路)以及近年興起的 Transformer 架構。在影像序列的選擇上,超過八成的研究高度依賴常規的 T2-weighted 與 FLAIR 影像,少數研究則加入了 T1 顯影後影像或是擴散張量影像(DTI)來增加特徵維度。
值得注意的是,這些文獻在 reference standard(黃金標準)的設定上存在明顯的分歧。針對診斷類型的研究,多以 2017 年修訂版的 McDonald 準則為依歸;但在預後預測的模型中,則普遍將追蹤期間的 EDSS(評估多發性硬化失能程度的十分制量表)分數惡化幅度作為預測目標。這些研究多採用回溯性設計,每個單一研究的平均收案人數約落在 150 至 300 人之間,且高達七成的數據來自單一醫學中心的封閉資料集,這為後續的模型泛化能力埋下了隱憂。
在影像分割的初始階段,早期的研究多依賴神經放射科醫師手動圈劃 ROI,這不僅耗時且容易產生極大的觀測者間誤差。近三年的文獻則紛紛轉向使用 3D U-Net 架構來進行全自動病灶切割。在特徵提取的過程中,絕大多數研究採用了 PyRadiomics 開源工具包,從每個病灶中提取包含一階統計量、形狀特徵與高階紋理特徵在內,總數超過 1000 個量化指標。為了避免 overfitting 現象,研究者們廣泛使用了 LASSO 迴歸來進行特徵降維,最終篩選出最具鑑別力的核心特徵輸入模型訓練。
| 研究面向 | 方法與比例 |
|---|---|
| AI 模型佔比 | 深度學習 55% / 傳統機器學習 45% |
| 主要影像序列 | T2-weighted 與 FLAIR (>80%) |
| 平均收案人數 | 每個單一研究約 150-300 人 |
| 資料來源 | 單一醫學中心封閉資料集 (70%) |
綜合 26 篇研究的核心設計
Table 2 跨疾病鑑別:MS 與 NMOSD 的 0.91 表現
把焦點拉到 Results 的跨疾病鑑別應用,放射科醫師在日常閱片時最常遇到的挑戰之一,便是區分 MS 與視神經脊髓炎光譜症候群(NMOSD)。這兩種脫髓鞘疾病在初期經常表現出極為相似的腦部與脊髓影像特徵,但兩者的治療策略卻南轅北轍,誤用藥物甚至可能導致 NMOSD 患者病情急速惡化。根據 Table 2 整理的診斷效能數據,利用 FLAIR 影像萃取的 radiomics 特徵結合 SVM 模型,在區分 MS 與 NMOSD 上達到了驚人的效能,其模型分類的 AUC 達到了 0.91 [95% CI: 0.88-0.94]。
若進一步細看 Table 2 中的具體數據,該 AI 模型在鑑別診斷任務上的 sensitivity 為 89% [85-92%],而 specificity 亦高達 87% [83-91%]。相較之下,由兩位具備十年以上經驗的神經放射專科醫師僅憑肉眼判讀同一批影像時,其綜合準確率僅有 76%。AI 之所以能取得如此大的優勢,主要歸功於其能偵測到病灶周邊看似正常的白質(NAWM)中,因早期微觀星狀膠質細胞受損而產生的紋理改變,這些是人類視覺系統絕對無法捕捉的細微訊號。
除了與 NMOSD 的鑑別,AI 在區分 MS 病灶與慢性缺血性白質病變方面也展現了極高的實用價值。特別是在 50 歲以上的患者群體中,退化性白質高訊號斑塊常與脫髓鞘病灶混雜。論文指出,透過綜合評估病灶的三維形狀特徵(例如球形度)以及周邊腦室擴張的紋理特徵,深度學習模型在區分這兩者的 AUC 可以穩定維持在 0.88 以上。這意味著 AI 能夠成為急診與門診第一線極具價值的輔助分診工具。
在預測疾病活躍度方面,模型表現同樣令人矚目。傳統上我們依賴 T1 顯影劑強化來判斷病灶是否處於急性發炎期;然而,研究證實單憑未打藥的 T2/FLAIR radiomics 特徵,預測未來 12 個月內是否會出現新發病灶或臨床復發的 AUC 也來到了 0.82。這項結果暗示著,未來我們或許能在減少甚至完全不使用含釓顯影劑(GBCA)的情況下,依然精準掌握病患的發炎動態,大幅降低了長期追蹤患者的顯影劑沉積風險。
Figure 3 揭示的次群組陷阱與 EDSS 預測盲區
然而,當我們深入探討次群組分析時,就會發現這些亮眼數據背後的適用邊界。Figure 3 詳盡畫出了不同解剖位置與病灶類型的預測效能差異,這是整篇綜述中最值得臨床醫師警惕的段落。數據顯示,AI 模型在處理腦室旁(periventricular)病灶時,其特徵提取的穩定性與預測力最高(AUC 0.86);但一旦將目標轉移到皮質近旁(juxtacortical)或是幕下(infratentorial)區域的病灶時,預測效能便會發生斷崖式的下跌,AUC 驟降至 0.68 以下。
這種空間異質性帶來的效能衰退,主要源於皮質與皮質下區域複雜的解剖結構。灰白質交界處的影像體積平均效應嚴重干擾了邊緣特徵的計算,導致紋理矩陣失真。此外,幕下區域(如腦幹與小腦)常常伴隨嚴重的搏動假影,這使得依賴像素級別精度的 radiomics 模型極易受到雜訊的誤導。這告訴我們,當放射科醫師在審閱一份以幕下病灶為主的 MS 報告時,不應過度盲信 AI 給出的預後分數,必須介入更多的人工裁量。
在 EDSS 失能分數的預測上,多變數迴歸分析揭示了另一個重要的臨床限制。當單獨使用影像 radiomics 特徵來預測兩年後的 EDSS 惡化時,其勝算比(Odds Ratio, OR)為 2.4 [95% CI: 1.8-3.1, p<0.01];但當模型強制加入患者的基期年齡、發病年限以及初始 EDSS 分數等臨床變數後,影像特徵的獨立貢獻度便大幅稀釋,其調整後的 OR 值降至 1.5 [95% CI: 1.1-2.0]。這表明影像紋理雖然有用,但在評估總體失能時,仍無法完全取代病患真實的臨床病史軌跡。
另一個容易被忽略的陷阱在於 T1 影像上的黑洞(black holes)。傳統觀念認為持續存在的 T1 低訊號區代表了不可逆的軸突斷裂與組織壞死;但從 radiomics 的視角來看,不同病期的 T1 黑洞在紋理特徵上呈現極大的重疊。Figure 3 的散佈圖清楚顯示,AI 難以單憑單一時間點的 T1 紋理特徵來區分這是處於水腫消退期的暫時性黑洞,還是永久性的組織缺損(敏感度僅 62%)。這意味著若缺乏縱向時間序列影像的對比,單張截面影像的 AI 分析在評估組織永久性損傷時依然力有未逮。
皮質與幕下區域為特徵提取弱點
外部驗證潰散與缺乏統一標準的臨床困境
在 Discussion 段落中,作者毫不避諱地坦承了目前 MS radiomics 研究面臨的最大致命傷:極度缺乏跨機構的外部驗證。在前述的 26 篇納入文獻中,高達 73% 的研究僅在內部資料集上進行交叉驗證。少數幾篇進行了外部驗證的研究顯示,當把在 A 醫院 3T 磁振造影儀器上訓練出來的優良模型,直接套用到 B 醫院 1.5T 儀器的影像時,模型的敏感度往往會從 85% 以上慘跌至 60% 以下,形同擲骰子。
這種跨儀器、跨掃描參數造成的批次效應,是 radiomics 走向臨床實務的巨大絆腳石。不同廠牌的切面厚度、甚至是影像重建演算法的差異,都會對高階紋理特徵的數值產生劇烈擾動。儘管近年來有研究導入了 ComBat harmonization(消除不同儀器數據差異的統計校正法),但這仍需要收集大量各廠牌的常模數據才能進行後端補償,對於資源有限的地方醫院而言,建置成本過於高昂。
深度學習模型的「黑盒子」特性也讓臨床醫師在採用時充滿疑慮。當 CNN 模型給出一個高復發風險的預測分數時,它並不會解釋是基於影像上的哪個特徵做出的判斷。為了解決這個問題,近年開始有研究導入 Grad-CAM(將 AI 關注區域以熱像圖疊加顯示的技術)來提升模型可解釋性,但在複雜的瀰漫性白質病變中,熱像圖往往呈現出難以解讀的斑駁分佈。此外,資料集不平衡也導致模型容易對少數會快速惡化的高風險群體給出偽陰性的保守預測。
對於身處第一線的放射科醫師而言,這篇論文提供了非常明確的使用指南。在目前這個時間點,AI 與 radiomics 最成熟、最能直接落地的場景,是「鑑別初診時不典型的白質病灶(如區分 MS 與 NMOSD)」。在這種單一時間點的分類任務中,AI 已具備專家級的第二意見價值。但若是要利用影像來預測長期的臨床 EDSS 改變,目前的演算法仍存在太多雜訊干擾。放射科醫師不應將 AI 給出的未來失能機率直接當作確定的結論,而是應將其視為提醒臨床醫師提高警覺的輔助標記。
鑑別 MS 與 NMOSD 時請大膽參考 AI 的特徵分類;但若要評估幕下病灶或面臨跨院區的掃描影像時,請果斷回歸你的肉眼與臨床經驗。