Conventional and Emerging MRI Biomarkers of Multiple Sclerosis.
機器學習結合進階影像標記,將多發性硬化症預測特異度翻倍至50%。
- 常規病灶數無法對應失能,順磁性邊緣病灶能更準確預測神經退化。
- 隨機森林結合病灶幾何特徵,將病情轉換預測特異度提升至 50%。
- 多中心資料使預測準確率驟降,小樣本深度學習極易產生過度擬合。
單憑 T1 加權影像預測臨床孤立症候群轉化為多發性硬化症,準確率竟然等同於盲猜。多發性硬化症的病程高度異質,即使臨床發現了滿腦子的白質病灶,數量卻經常與實際失能程度脫鉤,使得及早投藥的決策充滿變數。然而,透過機器學習結合進階的磁振造影生物標記,最新的預測模型已經將特異度推升至 50%,直接翻倍超越傳統 McDonald 準則的 22%。
突破臨床與影像悖論:機器學習與五大預測任務
多發性硬化症是年輕成人神經失能的主要原因,全球盛行率超過兩百五十萬人。傳統上,醫師多半將注意力集中在白質病灶的形成與擴散,但病患的失能進展卻經常與新發生的病灶無關,形成所謂的臨床與影像悖論。這種獨立於復發的惡化現象,挑戰了過去單純由局灶性發炎主導的自體免疫觀念,暗示著疾病本質其實是一種瀰漫性的悶燒過程。目前針對這種疾病仍無法治癒,僅能依靠改變病程的療法來延緩惡化,但這些強效藥物伴隨著嚴重的感染風險。為了妥善評估及早介入的效益,醫界迫切需要突破「一體適用」的舊思維。透過龐大的醫療數據集,人工智慧開始展露頭角,將過往依靠肉眼難以量化的非線性特徵進行深度解析。這份綜合回顧研究鎖定了五大關鍵預測任務,涵蓋轉換為確定疾病的機率、認知功能結果、失能狀態量表進展、運動功能退化以及整體疾病活性。
若深入探究這些悶燒過程的影像變化,單純依賴常規序列已經無法滿足精準醫療的需求。早期病程常表現為臨床孤立症候群,也就是單一且孤立的神經脫髓鞘發作,大約有百分之二十的這類病患終身不會發展成全面性的多發性硬化症。另一種更極端的狀況是放射線孤立症候群,患者在毫無症狀的情況下意外發現白質病灶,超過半數會在十年內爆發臨床症狀。要在這些混沌不明的階段做出精確預測,單憑病灶數量或體積等傳統標記顯得力不從心。為了精準撈出高風險族群,機器學習演算法如隨機森林與卷積神經網路被大量導入,藉以挖掘龐大核磁共振數據背後的微觀病理模式。這些預測不僅決定了神經科醫師何時該下猛藥,也直接影響病患未來十年的生活品質。
Figure 2 與進階磁振造影標記:捕捉正常外觀白質
回顧常規的磁振造影檢查,典型的白質病灶在 T2 或 FLAIR 序列上呈現高訊號,而在 T1 序列上若出現低訊號的黑洞,則暗示了嚴重的組織破壞。儘管加上顯影劑能捕捉到血腦屏障受損的活躍病灶,但這些傳統數量指標卻只能勉強解釋部分的神經學症狀。為了看清冰山底下的瀰漫性傷害,Figure 2 特別標註了多種進階影像生物標記,其中順磁性邊緣病灶(PRL,透過磁化率造影觀察病灶周圍沉積的鐵質,代表慢性發炎狀態)成為預測疾病軌跡的利器。除此之外,緩慢擴張病灶(SEL,透過連續掃描追蹤病灶邊緣的無聲擴張,反映持續脫髓鞘)也因高度關聯悶燒型疾病活性而備受矚目。這些嶄新的標記成功量化了常規影像無法察覺的微觀破壞,為演算法提供了更堅實的訓練基礎。
除了病灶本身,周遭看似無恙的組織往往早已千瘡百孔,迫使研究人員將目光轉向正常外觀白質(NAWM,常規影像看似正常但微結構已受損的區域)。透過擴散張量造影的指標,像是部分非向性與平均擴散率,醫師可以間接測量髓鞘的流失程度;而磁化轉移率(MTR,測量組織中游離水與大分子結合水的質子交換來推算髓鞘含量)更被證實與病患的運動失能高度相關。另一方面,中央靜脈徵象(CVS,利用 T2* 序列觀察病灶是否沿著微小靜脈生長)原本主要用於鑑別診斷,近期也被發現可能具備預測放射線孤立症候群惡化的潛力。不僅限於白質,大腦皮層與深部灰質的萎縮甚至比白質損傷發生得更早,雙重反轉恢復序列便能藉由壓抑白質與腦脊髓液訊號,大幅提升皮質病灶的偵測靈敏度。這些多維度的進階指標,徹底改變了多發性硬化症的影像評估樣貌。
若是將視角拉高至全腦的連結網路,結構與功能連接度同樣是評估認知與運動障礙的關鍵視野。透過神經纖維追蹤技術,大腦被簡化成一個錯綜複雜的數學圖形,灰質結構化作節點,白質束則是傳遞訊號的邊線。白質病灶造成的實體斷線,直接對應了病患日益衰退的記憶力與肢體協調度。同時,功能性磁振造影呈現了深部灰質的異常代償,例如視丘與海馬迴之間不尋常的活躍連結,以及與額葉網路的明顯斷聯。綜合前述的微觀退化與宏觀網路斷層,這些數據餵養成千上萬個運算參數,讓機器學習模型擁有超越人類肉眼判讀的可能性。
Table 1 的轉換預測數字:特異度翻倍至百分之五十
把焦點拉到臨床孤立症候群轉化為確定疾病的預測,傳統人工篩選的極限在 Table 1 的對比中表露無遺。Zhang 等人的團隊採用隨機森林(RF,結合多棵決策樹透過多數決提高穩定度,能減少單一特徵的干擾)演算法,並納入了病灶的最小球形度以及表面積對體積比等幾何特徵。這個模型達成了 50% 的特異度,雖然看起來不高,但相比於 2010 年 McDonald 準則可憐的 22% 特異度,已經是極具臨床價值的飛躍。另一組 Bendfeldt 的研究則運用支持向量機(SVM,在高維空間中畫出最佳超平面來完美切分兩類資料的分類器),處理 T1 顯影遮罩的體積與表面積等特徵。在服用干擾素的病患群體中,該模型對疾病轉換的預測準確率來到 70.4%,且全腦特徵的表現勝過單一特定區域的評估。這些實實在在的數據,展現了幾何結構特徵在疾病早期預測中的龐大潛力。
再進一步看解剖位置與深部結構的貢獻,許多研究開始挑戰更複雜的模型建構。Rasouli 團隊引進了 XGBoost(極端梯度提升,利用前一棵樹的預測錯誤來訓練下一棵樹,對非線性資料擬合極佳)模型,整合了臨床數據與病灶的空間位置。該預測模型在測試集上跑出了 0.858 的 AUROC 高分;透過 SHAP(從賽局理論推算各特徵對預測的貢獻度,讓黑盒子透明化)分析後,發現腦室周圍與幕下的病灶是最關鍵的預測因子。與此同時,Tayyab 的研究團隊則另闢蹊徑,他們將視丘體積與 T2 白質病灶負荷納入考量,並未將標記不明確的病患剔除,而是使用機率型的隨機森林來輸出風險分數。該模型的召回率衝高至 0.923,不過整體的 AUROC 則稍微回落至 0.76。這些迴歸分析與決策樹的組合,證明了病灶位置與灰質萎縮在早期惡化中扮演了舉足輕重的角色。
| 研究團隊 / 演算法 | 納入之進階影像特徵 | 效能指標 | 測試數據表現 |
|---|---|---|---|
| Zhang (RF) | 病灶幾何 (球形度、面積體積比) | 預測特異度 | 50% (勝過 McDonald 準則 22%) |
| Bendfeldt (SVM) | T1w-Gd 遮罩之 Minkowski 泛函 | 預測準確率 | 70.4% |
| Rasouli (XGBoost) | 病灶解剖位置 (腦室周圍、幕下) | AUROC | 0.858 |
| Tayyab (機率型 RF) | 視丘體積、T2w 白質病灶負荷 | 召回率 / AUROC | 0.923 / 0.76 |
| Afzal (小樣本 CNN) | T2w 原始影像特徵 | 單中心準確率 | 83.3% - 100% (具過度擬合風險) |
不同演算法與特徵組合的表現差異
機器學習特徵處理:從降維過濾到神經網路萃取
建立一個強悍的預測模型,前期的資料清理與特徵工程往往決定了最終的成敗。面對醫療資料常見的罕見類別困境,例如高達兩成的病患終身不會發展出明確疾病,直接訓練會導致模型倒向多數類別。研究者常套用 SMOTE(合成少數類別過採樣技術,透過演算法無中生有少數類別的合理樣本,藉此平衡訓練資料),避免預測結果出現嚴重偏差。而在處理動輒上千維度的影像數據時,非監督式的降維技術如 UMAP(統一流形近似與投影,將高維資料壓縮並保留非線性的局部結構特徵)則能大幅降低運算負擔。若是為了防止過度擬合,套索正規化(LASSO,在訓練過程中直接將無用特徵的權重歸零的嵌入式特徵選擇法)與遞迴特徵消除便成為篩選關鍵生物標記的必備工具。
當傳統機器學習還在依賴放射科醫師手工框選病灶時,深度學習的強勢崛起直接顛覆了遊戲規則。卷積神經網路(CNN,利用卷積層與濾波器自動抽取影像的空間紋理特徵,無需人工介入)成為了處理核磁共振影像的霸主。進階架構如殘差網路(ResNet,加入跳越連線讓極深的神經網路不會因層數過多而效能衰退)能有效抽取深層語意特徵,而 U-Net(自動壓縮再重建影像的高精度切割框架)則能完美圈出病灶的精確邊界。若是結合結構與功能性連接度矩陣,圖神經網路(GNN,把大腦結構當成節點與連線來運算網路拓樸變化的神經網路)則能輕易消化複雜的網路大數據。這類免除人工特徵工程的方法,不僅加快了分析速度,更找到了許多人類視覺難以歸納的隱性退化規律。
多中心資料準確率跳水與六人樣本過度擬合陷阱
儘管演算法展現了驚人的預測力,一旦將模型放到不同醫院的真實場景中,嚴重的資料異質性立刻讓效能現出原形。一項結合皮質厚度與灰質機率的多中心研究使用了線性支持向量機進行驗證,在單一中心的留一交叉驗證(LOOCV,每次挑一個樣本當測試集以評估小樣本模型)中,準確率出現了從 0.73 到 0.93 的劇烈震盪。更令人擔憂的是,當研究者將所有醫學中心的資料混在一起訓練時,整體準確率直接暴跌至 0.70。這樣的跳水現象清楚表明,不同廠牌掃描儀、不同切面厚度與感測線圈所帶來的雜訊,足以輕易抵銷進階影像標記的優勢。因此,如何在多中心架構下維持模型的穩定性,成為深度學習無法迴避的硬傷。
再細看部分深度學習文獻中的極端案例,過度依賴小樣本的後果往往令人咋舌。Afzal 的團隊嘗試將 T2 加權原始影像直接餵給卷積神經網路,藉以預測一年後的疾病轉換。雖然使用了資料擴增技術與較小的網路架構來抑制過度擬合,但由於只有區區 6 名受試者的基準影像,模型的預測準確率竟浮誇地落在 0.833 到 1.0 之間。這種在封閉極小樣本內達到完美預測的現象,基本上只是神經網路死背了這六人的影像特徵,面對全新病患時毫無泛化能力可言。相對地,Pareto 嘗試僅憑 T1 影像特徵預測第二次臨床發作,其效能完全無法超越隨機盲猜,再次印證了單一模態與資料量不足是模型崩潰的催命符。
多中心資料異質性導致效能明顯下降
跨越神經造影的侷限:多中心實務與落地考量
從前述的數據與陷阱中抽絲剝繭,我們可以發現多數預測模型在臨床落地上仍有巨大的鴻溝待跨越。大量研究仰賴交叉驗證來評估效能,往往會過度樂觀估計模型在外部資料集的能耐。各個研究對「疾病轉換」的定義區間不盡相同,導致演算法之間難以進行客觀的橫向比較。而在評估失能進展時,目前主流的擴展失能狀態量表(EDSS)過度偏重病患的步行能力,嚴重忽略了認知衰退與上肢功能的受損,使得以 EDSS 為目標的預測模型天生帶有偏見。此外,脊髓造影雖然對失能評估至關重要,卻因為解剖面積小且充滿呼吸與吞嚥假影,在多數預測模型中遭到邊緣化。
身為放射線科醫師,未來在判讀多發性硬化症影像時,勢必需要改變既有的觀察習慣。比起單純計算高訊號病灶的數量,留意深部灰質結構如視丘的體積變化,或是追蹤磁化率造影上的順磁性邊緣,更能提供神經科醫師及早介入的有力證據。未來的個人化醫療決策,絕對不是單靠單一演算法或單一核磁共振序列就能搞定。我們需要整合光學同調斷層掃描(OCT,利用干涉光學看視網膜神經纖維層變薄程度)與病患的遺傳基因負荷分數,搭配視覺化的特徵解釋工具。唯有建立能夠明確指出解剖異常位置並說明預測邏輯的透明系統,這些機器學習演算法才真正有機會走出實驗室,成為臨床上不可或缺的次世代診斷利器。
單一發作別只算病灶數,測量視丘體積並留意順磁性邊緣,才是決定提早給藥的硬指標。