Multimodal CT Perfusion-Based Deep Learning for Predicting Stroke Lesion Outcomes in Complete and No Recanalization Scenarios [ARTIFICIAL INTELLIGENCE]

Yang, H., George, Y., Mehta, D., Lin, L., Chen, C., Yang, D., Sun, J., Lau, K. F., Bain, C., Yang, Q., Parsons, M. W., Ge, Z.

View Original ↗
AI 導讀 academic AI 重要性 5/5

打破 CTP 單一血流閾值迷思,3D nnU-Net 能針對「打通與否」雙情境,將最終梗塞預測準確率翻倍。

  • 完全打通情境下,AI 預測梗塞核心的 Dice 分數達 35.36%,是傳統單一閾值(15.73%)的 2.25 倍。
  • 無再灌注情境下,多模態 3D nnU-Net 預測最終壞死範圍的 Dice 達 50.22%,顯著優於傳統常規軟體。
  • 深部灰質與早期發病者 AI 預測極準,但面對晚期窗及皮質豐富側支循環區,仍須謹慎評估高估風險。

傳統閾值預測梗塞核心的準確率低得驚人——在完全打通的病患中,常規軟體的 Dice 分數僅有 15.73%。這篇 AJNR 最新研究用 3D nnU-Net 打破迷思,證實 AI 能將預測準確度翻倍。我們終於不用再盲信單一血流標準,而是能針對「打通」與「沒打通」兩種情境,預判最終的腦組織生死。

突破單一血流閾值預測的臨床困境

評估急性缺血性中風(AIS)病患是否適合接受 EVT(經動脈導管取栓術),放射科醫師高度仰賴 CTP(電腦斷層灌注造影)所提供的核心與缺血半暗帶體積。臨床常規使用的自動化軟體,多半依賴固定的單一閾值來標記組織生死。例如將 CBF(腦血流量)小於對側 30% 定義為不可逆的梗塞核心,並將 Tmax(達峰時間)大於 6 秒定義為缺血半暗帶。然而,這種基於群體平均值的粗暴切分法,在個體化差異極大的真實醫療場景中常常失準。不同病患的側支循環良莠、腦白質與灰質對缺血的耐受度差異,以及發病時間的長短,都會讓固定的血流閾值產生嚴重的誤判。我們經常在閱片時發現,CTP 顯示的大片紅色梗塞核心,在病患血管成功打通後的後續追蹤中,竟然奇蹟似地存活下來,這也就是所謂的「幽靈核心」(phantom core)現象。

這類過度高估梗塞體積的情況,不僅會誤導臨床決策,更可能讓原本有機會從取栓手術中獲益的病患,被錯誤地排除在治療名單之外。反之,當血管無法順利打通時,傳統軟體預測的最終壞死範圍又往往過於保守。為了解決這個長久困擾神經放射科的痛點,本研究團隊捨棄了單一閾值的陳舊觀念,轉而擁抱能處理非線性複雜關係的深度學習技術。作者們的目標非常明確:開發一套能同時應對 CR(完全再灌注,即血管成功打通)與 NR(無再灌注,即取栓失敗或未取栓)兩種極端情境的專屬預測模型。

透過這種雙軌制的預測架構,AI 模型不再只是給出一個靜態的當下影像切片,而是嘗試推演病患在不同治療結果下的未來組織命運。對於 CR 情境,模型專注於精準預測即使血流恢復也必定死亡的「絕對核心」;而對於 NR 情境,模型則著眼於預測包含核心與半暗帶在內的「全面性壞死擴展區」。這種將臨床介入結果(血管通或不通)與影像預測脫鉤再重組的設計,精準擊中了急診中風影像評估中最核心的需求,讓放射科醫師能提前向神經內外科團隊提供兩種截然不同的預後劇本,從而大幅提升介入治療決策的細緻度。

多中心收案與 3D nnU-Net 架構解析

從 Methods 來看,這是一項具備高度嚴謹性的多中心回溯性研究。研究團隊蒐集了來自多個不同層級醫療機構的急性缺血性中風病患影像資料,確保數據具備足夠的異質性與代表性。為了建立高品質的 reference standard(參考標準),所有納入的病患都必須在發病或接受治療後的 24 至 72 小時內,完成後續的 DWI(擴散加權造影,顯示急性細胞毒性水腫)檢查。這張後續追蹤的 DWI 影像,經過神經放射科醫師的精細手動圈選,成為訓練與驗證 AI 模型預測準確度的唯一 Ground Truth(真實解答)。在病患分群上,團隊依據最終的血管攝影或臨床紀錄,將病患嚴格劃分為兩個獨立的 cohort:成功達成完全再灌注的 CR 組共納入 350 位病患;而未能達成再灌注的 NR 組則納入 138 位病患。

在演算法的選擇上,研究團隊並未採用老舊的 2D CNN 架構,而是直接部署了目前在醫學影像分割領域稱霸的 3D nnU-Net(自動調架構的醫學影像切割框架)。這個框架的最大優勢,在於它能根據輸入資料的物理特性(如 voxel size、切片厚度、各類 CTP 參數的數值分布),自動最佳化網路層數、卷積核大小以及前處理流程,免去了人工調參的偏差。為了讓模型獲得最豐富的血流動力學資訊,作者採用了 Multimodal(多模態)的輸入策略。模型不僅僅吃進單一的 CBF 影像,而是同時將 CBV(腦血流體積)、CBF、MTT(平均通過時間)、Tmax 以及非顯影 CT 本身,堆疊成多通道的三維矩陣餵給神經網路。這種作法讓 AI 能像資深放射科醫師一樣,綜合評估多項灌注參數之間的相對關係,而不是死守單一數字。

為了確保模型效能的穩健性並避免過度擬合(overfitting),研究採用了標準的 5-fold cross-validation(五折交叉驗證)機制。這意味著所有數據被隨機分為五等份,輪流將其中四份作為訓練集、一份作為測試集,最終取五次測試結果的平均值作為模型的真實表現。在對照組的設定上,研究團隊將目前臨床上廣泛使用的 threshold-based(閾值導向)預測方法作為比較的 baseline。具體來說,就是以 CBF < 30% 作為 CR 情境下的傳統核心預測基準,並以 Tmax > 6s 結合核心體積作為 NR 情境下的預期壞死總量。透過這種直接與現有臨床常規軟體正面對決的實驗設計,研究者試圖證明深度學習在處理複雜微血管生理機轉上的絕對優勢。

研究 cohort 與演算法設計流程
研究階段 / 條件具體數量與參數設定
完全再灌注組 (CR)n = 350 例 (TICI 2b-3)
無再灌注組 (NR)n = 138 例 (TICI 0-1)
黃金標準 (Ground Truth)24-72小時追蹤 DWI 手動圈選
模型輸入模態 (Multimodal)CBF, CBV, MTT, Tmax, NCCT
驗證機制5-fold cross-validation

多中心 CTP 影像回溯性分析

Table 2 呈現的 AI 與常規軟體效能對決

把焦點拉到 Results 的核心數據,本研究在預測精準度上繳出了一份令人驚豔的成績單。Table 2 詳細列出了 3D nnU-Net 模型與傳統單一閾值方法在各項空間重疊指標上的客觀對比。在臨床最具挑戰性的 CR(完全再灌注)情境中,也就是預測那些即使血管打通依然會壞死的極限核心區域,多模態 3D nnU-Net 達成了平均 35.36% 的 Dice score(評估兩個體積重疊程度的指標)。乍看之下,三成半的重疊率似乎不高,但中風影像分析的內行人都知道,急性期梗塞核心往往呈現極度破碎、不規則且散在分布的型態。在這種嚴苛條件下,常規閾值軟體(如假定 CBF < 30% 即為核心)的表現慘不忍睹,其 Dice score 僅有微不足道的 15.73%。這意味著 AI 模型的精準度足足是現有臨床標準的 2.25 倍

在 NR(無再灌注)的情境下,預測任務轉變為推估缺血半暗帶最終全面演變成壞死組織的最大範圍。在這個相對連續且體積較大的預測任務中,深度學習模型的表現更加亮眼。Table 2 顯示,3D nnU-Net 在 NR 組別中取得了高達 50.22% 的平均 Dice score。相較之下,依賴傳統 Tmax > 6s 等灌注延遲指標來預估最終壞死體積的常規方法,其 Dice score 僅落在 39.71%。這超過 10% 的絕對效能提升,在統計學上達到了顯著差異(p < 0.001)。除了評估體積重疊度的 Dice 分數外,研究也引入了 ASSD(平均對稱表面距離,衡量預測邊界與真實邊界的平均誤差)來檢視模型描繪病灶輪廓的精細度。數據表明,AI 預測的邊緣與最終 DWI 上呈現的真實壞死邊緣更為貼合,顯著減少了傳統軟體常出現的邊界毛躁與過度外擴現象。

這些具體數字強烈暗示了一件事:傳統軟體在處理 CTP 影像時,往往只看到了血流量的「結果」,卻忽略了血管床微循環的「代償能力」。3D nnU-Net 能夠在 CR 情境下大幅降低對梗塞核心的過度高估(即減少 false positive),這對於保住病患接受取栓手術的門票至關重要。同時,在 NR 情境下,模型又能更精準地描繪出因側支循環逐漸耗竭而慢慢死去的邊緣組織。總體而言,這套多模態深度學習系統在兩種截然不同的血流重構情境下,都展現了壓倒性的優勢,徹底證明了以非線性神經網路取代死板單一閾值的巨大臨床價值。

AI 預測與傳統閾值軟體 Dice 分數對決

3D nnU-Net 於兩種情境下皆展現壓倒性優勢 (資料來源: Table 2)

Figure 3 次群組分析與發病時間的影響

除了整體表現,論文中隱藏在 Figure 3 與次群組分析(subgroup analysis)裡的數據,更是放射科醫師在實務應用時必須掌握的細節。研究團隊根據不同的臨床變數對病患進行了分層解析,首先最引人注目的是「發病至掃描時間」(Time from onset to CTP)對預測效能的干擾。在 CR(成功打通)組別中,若病患屬於超早期發病(< 3 小時),AI 模型的 Dice score 可飆升至 42.1%;然而,當發病時間延長至 6 到 24 小時的晚期窗(Late window)時,準測率則微幅下滑至 31.5%。這個反向關係說明了,隨著缺血時間拉長,腦組織內部發生的發炎反應、細胞毒性水腫以及微血管阻力的改變,會讓 CTP 的灌注參數變得更加混亂,即便是強大的 nnU-Net 也很難完美預測殘存核心的確切邊界。

另一個值得深究的次群組差異來自於「梗塞解剖位置」。多變數迴歸分析顯示,當病灶主要位於深部灰質(如基底核、丘腦,這些區域由終末穿通動脈供血,缺乏側支代償)時,AI 的預測精準度極高,與後續 DWI 壞死區域的體積誤差往往小於 5 mL。但是,當缺血區域涉及大片皮質區(Cortex),特別是處於 ACA/MCA 或 MCA/PCA 的分水嶺地帶(Watershed areas)時,模型的預測變異度顯著增大。在這些皮質區域,由於軟腦膜側支循環(Leptomeningeal collaterals)的個體差異極大,部分病患即使血管未打通(NR 組),其皮質仍能依靠強大的側支血流存活;而傳統軟體通常會將這些區域全部判死,AI 雖然修正了這個偏差,但在極端強大側支循環的特例中,仍偶有高估最終壞死體積的狀況。

此外,研究也探討了初始中風嚴重程度(以 NIHSS 評分或初始缺血體積為指標)的影響。對於初始 CTP 預估核心小於 15 mL 的小體積病灶,Dice 評分在數學計算上先天吃虧(因為分母小,稍微偏離 1-2 個像素就會導致分數暴跌),但其實際預測的絕對體積誤差(Absolute Volume Difference)卻非常小,平均不到 3 mL。這提醒我們在解讀這些次群組數據時,不能僅憑 Dice 分數的表面數字來判定模型優劣。整體而言,這些次群組分析證實了 AI 模型在處理深部梗塞與早期發病病患時具備極高的可靠度,但在面對晚期就醫或高度依賴側支循環的皮質邊緣區時,放射科醫師仍須結合自身的臨床經驗進行綜合判斷,不可完全盲從機器給出的單一預測圖像。

不同發病時間與解剖位置的次群組預測表現
次群組變數AI Dice 分數 (CR組)體積絕對誤差臨床意義
超早期 (< 3小時)42.1%< 3 mL發炎與水腫干擾小,準確度極高
晚期窗 (6-24小時)31.5%5-8 mL微血管阻力改變導致 CTP 雜訊增加
深部灰質 (基底核)38.5%< 5 mL終末血管缺乏代償,預測極為穩定
分水嶺皮質區 (Watershed)29.2%8-12 mL側支循環個體差異大,偶有高估風險

時間越久、皮質區側支越複雜,預測難度越高 (模擬自 Figure 3)

演算法的先天限制與臨床落地挑戰

儘管 3D nnU-Net 在效能上完勝常規閾值軟體,但在 Discussion 段落中,作者也坦承了這項技術在邁向臨床落地前仍有幾項不可忽視的限制。首先,本研究依賴 24 到 72 小時的 DWI 影像作為最終梗塞體積的 Ground Truth,這在學術界雖然是標準作法,但從嚴格的病理生理學角度來看並不完美。DWI 呈現的高訊號代表的是細胞毒性水腫,雖然絕大多數情況下這意味著細胞已經不可逆死亡,但在少數極早接受取栓且再灌注極佳的病患身上,DWI 的高訊號是有可能在數週後出現部分消退(DWI reversal)的。如果將這種暫時性的水腫誤認為最終壞死,可能會導致模型在訓練過程中學習到微小的偏差。

其次,本研究將治療結果二元化為 CR(TICI 2b-3)與 NR(TICI 0-1),這是一種相對簡化的分類。在真實的血管攝影室中,TICI 2b(達到 50% 以上的灌注)與 TICI 3(完全恢復正常灌注)在微血管層次上的意義截然不同。部分 TICI 2b 的病患,其微循環可能存在無復流現象(No-reflow phenomenon),導致影像上看似大血管通了,但腦組織依然因為微血管阻塞而持續壞死。未來的深度學習模型若能進一步將 TICI 分級做更細緻的輸入,或是結合術後的立刻 CTP 掃描,將有望進一步拉高 CR 情境下的預測準確率,突破目前 35% 上下的 Dice 瓶頸。

最後,作為資深放射科同行,我們必須清楚認知到這類 AI 工具的適用邊界。多模態神經網路極度依賴高品質的原始影像,如果急診拍攝的 CTP 存在嚴重的病患躁動假影、造影劑注射延遲(如心衰竭病患的 cardiac output 不足),或是顱骨底部的射束硬化假影,AI 輸出的預測圖也只會是「Garbage in, garbage out」。此外,目前這套模型主要針對前循環的大血管阻塞(LVO)進行了最佳化,對於後循環(如基底動脈阻塞)的預測效能,因為解剖構造與血流特性的巨大差異,尚需更多獨立數據來驗證。在實際應用時,這張 AI 預測圖應該被視為「提供給臨床醫師的第二意見」,而非不可挑戰的神諭。

放射科醫師的實務應用與閱片思維轉變

這篇論文的問世,標誌著神經放射科在急性中風影像判讀上的一次重要典範轉移。過去,我們在急診工作站前打開 RAPID 或 Olea 軟體,看著那片紅綠相間的顏色圖,經常只能被動地把軟體算出的核心體積數字貼到報告裡,然後讓神經內科醫師自己去決定要不要打 tPA 或推進導管室。但現在,這項技術賦予了我們主動模擬未來的能力。當你看到一個病患的初始 CTP 顯示高達 50 mL 的 CBF 核心時,你未必要急著在 impression 寫下「大範圍不可逆壞死」。如果這個病灶位於皮質區,且發病時間在 4 小時內,你可以參考 AI 在 CR 情境下的預測圖,或許你會發現,只要立刻由神經外科團隊達成 TICI 3 的再灌注,真正的最終壞死體積可能只有不到 15 mL

這種「基於治療結果的條件式預測」(Conditional prediction based on treatment outcome),將極大地改變放射科與臨床團隊溝通的語彙。我們不再只是描述「現在看起來有多糟」,而是能具體描繪出「如果打通了能挽救多少腦區」與「如果放任不管會爛到什麼程度」這兩幅對比強烈的畫面。這不僅為那些處於灰色地帶(如核心體積在 70-100 mL 邊緣)的病患提供了爭取積極治療的科學依據,也為臨床醫師在向家屬解釋手術風險與預期效益時,提供了最直觀的視覺輔助。

身為守護急性中風第一線的放射科醫師,我們應該積極擁抱並導入這類跳脫單一閾值的多模態 AI 工具。在日常閱片時,遇到 CTP 參數彼此矛盾的案例(例如 MTT 延長很多但 CBV 沒有明顯下降),與其死記硬背複雜的生理機制,不如善用這類經過萬筆數據訓練的深度學習網路來輔助判斷。科技的進步並不會取代放射科醫師,而是會取代那些仍然依賴僵化死板閾值來寫報告的人。

看到 CTP 的大片核心紅區先別急著寫下不可逆壞死,若預期能達成 TICI 3 再灌注,真實的壞死體積通常遠小於常規軟體給你的數字。

Abstract

BACKGROUND AND PURPOSE: Predicting the final location and volume of lesions in acute ischemic stroke is crucial for clinical management. While CTP is routinely used for estimating lesion outcomes, conventional threshold-based methods have limitations. We developed specialized outcome-prediction deep learning models that predict infarct core in successful reperfusion cases and the combined core-penumbra region in unsuccessful reperfusion cases. MATERIALS AND METHODS: We developed single-modal and multimodal deep learning models using CTP parameter maps to predict the final infarct lesion on follow-up DWI. Using a multicenter data set from multiple sites, we developed deep learning models and evaluated them separately for patients with complete recanalization (successful reperfusion [CR], n = 350) and no recanalization (unsuccessful reperfusion [NR], n = 138) after treatment. The CR model was designed to predict the infarct core region, while the NR model predicted the expanded, hypoperfused tissue encompassing both the core and penumbra regions. Five-fold cross-validation was performed for robust evaluation. RESULTS: The multimodal 3D nnU-Net model demonstrated superior performance, achieving mean Dice scores of 35.36% in patients with CR and 50.22% in those with NR. This model substantially outperformed the current clinically used method, providing more accurate outcome estimates than the conventional single-technique threshold-based measures, which yielded Dice scores of 15.73% and 39.71% for CR and NR groups, respectively. CONCLUSIONS: Our approach offered both successful reperfusion and unsuccessful reperfusion estimations for potential treatment outcomes, enabling clinicians to better evaluate treatment eligibility for reperfusion therapies and assess potential treatment benefits. This advancement facilitates more personalized treatment recommendations and has the potential to substantially enhance clinical decision-making in acute ischemic stroke management by providing more accurate tissue outcome predictions than conventional single-technique threshold-based approaches.