Do MRI radiomic models truly generalize? External validation of three studies in parotid lesion characterization.

Benyoucef Rayan, Goubet Martin, Barrat Antoine, Chauveau Benoit, Hordonneau Constance, et al.

View Original ↗
AI 導讀 academic AI 重要性 4/5

高達 0.78 的預測模型在外部驗證暴跌至擲硬幣水準,徹底揭開影像組學過度擬合的面紗。

  • 曾達 C-index 0.78 的肝轉移消融預測模型,外部驗證暴跌至 0.50 甚至更低。
  • 超過 19 台不同 CT 廠牌的影像異質性,導致影像組學模型嚴重過度擬合。
  • 採用病患層級的臨床特徵來預測單一病灶的局部復發,邏輯錯位註定驗證失敗。

曾經高達 C-statistic 0.78 的神準影像組學模型,換了一批病患後,預測能力竟暴跌到與丟銅板無異的 0.39。這項針對大腸直腸癌肝轉移熱消融後局部復發的多中心外部驗證研究,無情地戳破了人工智慧預測的過度樂觀,提醒我們在未經獨立驗證前,別輕易把演算法的訓練結果當成臨床決策的依據。

53% 敏感度極限與 CRLM 復發的預測挑戰

對於大腸直腸癌肝轉移 (CRLM) 的病患,當腫瘤位置不適合或病患身體狀況無法接受手術切除時,熱消融如微波消融 (MWA) 或射頻消融 (RFA) 是極其重要的互補療法。然而,熱消融後局部腫瘤進展 (LTP) 的發生率高達 6% 到 46%。在臨床實務上,要在對比增強電腦斷層 (ceCT) 影像上早期揪出 LTP 是一大挑戰,因為消融後的組織壞死、發炎反應區與實質的腫瘤復發在影像密度上非常相似,導致 ceCT 偵測 LTP 的敏感度僅約 53%。這意味著放射科醫師往往需要多次隨訪掃描,才能在時間軸上確認病灶真的復發了,而這不可避免地會造成治療延遲。

為了解決這個延遲診斷的難題,同一個研究團隊在先前的先導研究中,嘗試開發了基於 radiomics(從影像自動抽上千個量化特徵)的預測模型。當時的假設非常美好:只要仔細分析消融後二到八週的門脈相 CT 影像,若能成功預測哪些病患具有高復發風險,外科或介入醫師就能提早進行輔助治療,並對低風險病患放寬追蹤頻率。在原先發表的原始研究中,團隊使用了包含臨床參數、消融區 (AZ) 與消融周圍邊緣 (PAR,定義為周圍 10 mm 的肝實質) 的影像組學特徵,建立了三個預測模型。當時聯合臨床與影像組學的模型表現最為亮眼,取得了 concordance statistic (c-statistic,類似 AUC,衡量預測模型區分能力的指標) 高達 0.78 的好成績。但原研究僅使用了 leave-one-out cross-validation (LOOCV,每次拿一筆資料測試其餘訓練的交叉驗證) 來評估,完全缺乏真正的外部資料考驗,這也促成了本篇重新檢視的打假研究誕生。

Table 1 呈現的 146 顆肝轉移瘤多中心驗證設計

為了檢視原始模型是否經得起考驗,研究團隊設計了獨立的內部與外部驗證世代。從 Table 1 的患者特徵可以看出,內部驗證世代來自荷蘭癌症中心,收錄了 39 位病患共 68 顆成功消融的 CRLM;而外部驗證世代則來自伊拉斯姆斯醫學中心,包含 52 位病患共 78 顆 CRLM。研究對 LTP 的定義相當嚴謹,指的是熱消融後 24 個月內,在消融區邊緣 10 mm 範圍內出現的新腫瘤病灶。患者的整體中位追蹤時間為 24 個月 (最長達 139 個月),而發生 LTP 的中位時間約為 8 個月。若超過 24 個月才出現,或是距離超過 10 mm,則被視為新的肝臟微轉移,不被歸類為消融失敗的 LTP。

病患的篩選條件與原始研究高度一致,包含必須有組織學確診、消融前腫瘤小於 3 公分、並且嚴格排除不完全消融或殘留腫瘤的病患。此外,團隊也剔除了曾經接受立體定位放射治療 (SBRT) 或門靜脈栓塞 (PVE) 等會改變肝臟實質紋理的治療案例。為了擴充內部驗證的樣本數,作者將原本「病患最多五顆 CRLM」的限制,微調放寬為「最多消融五顆 CRLM」,因為消融區的紋理特徵理應不會受到肝臟內總腫瘤數量的影響。這兩個驗證世代的 LTP 發生率有所不同:內部世代為 16%,而外部世代高達 29%。此外,外部世代有高達 87% 的病灶是使用 RFA 治療,內部世代則 100% 使用 MWA。影像擷取設備更是橫跨了三大廠牌、高達 19 台不同的 CT 掃描儀,切片厚度從 1.3 mm 跨距到 3.3 mm 不等,真實反映了多中心資料的異質性與挑戰。

Table 1 三大驗證世代基線特徵比較
特徵原始世代 (n=127)內部驗證 (n=68)外部驗證 (n=78)
腫瘤平均大小18 ± 6 mm11 ± 7 mm13 ± 7 mm
異時性轉移比例45%21%23%
RFA 射頻消融比例80%0%87%
局部復發 (LTP) 比例26%16%29%

儘管篩選條件一致,臨床與設備特徵在多中心間仍有顯著變異

Table 4 的聯合模型 C-statistic 暴跌至 0.50

把焦點拉到 Results,模型在獨立驗證中的表現堪稱慘烈,完全推翻了原先的樂觀預期。根據 Table 4 所列出的具體數字,原本在原始世代中表現最佳的「臨床-影像組學聯合模型」,在內部驗證世代的 c-statistic 僅剩下 0.47 [95% CI 0.30–0.64],在外部驗證世代也只有 0.50 [95% CI 0.38–0.62]。對比原本高達 0.78 的成績,這樣的預測能力幾乎等於擲硬幣,完全喪失了區分病灶未來會不會發生 LTP 的能力。

單獨檢視「影像組學模型」的表現更是令人沮喪。模型中包含了多項經過 Laplacian of Gaussian (LoG,套用高斯平滑後再做拉普拉斯邊緣強化的濾波器) 轉換後的紋理特徵,如均勻度 (Uniformity) 與變異數 (Variance)。然而,這套看似精密的方法,在內部驗證中其 c-statistic 僅有 0.46 [95% CI 0.29–0.63],外部驗證中甚至掉到了 0.39 [95% CI 0.28–0.52],遠遠不及原始研究宣稱的 0.65。此外,僅包含腫瘤大小、T 分期與輔助化療的三變數「臨床模型」,在內部與外部驗證的 c-statistic 也雙雙落在 0.51。即使研究團隊試圖挽救,套用了 ComBat harmonisation(一種藉由統計分布對齊來消除不同掃描儀批次效應的技術),在特徵協調後的聯合模型表現依舊是 0.460.50,毫無起色。這清楚顯示,原始模型不僅無法泛化到外部機構,甚至連在同一家醫院、不同時間段收集的內部病患上都徹底失效。

預測模型在三大世代的 C-statistic 表現

原本高達 0.78 的聯合模型,在獨立驗證中暴跌至丟銅板水準

19 台 CT 掃描儀異質性引發的嚴重過度擬合

若深入探討這個結果的原因,作者坦承最大的問題出在嚴重的「過度擬合」(overfitting)。原始研究使用的 LOOCV 技巧,往往只是在反覆測試訓練資料的自我契合度,並不能真正評估模型的泛化品質。放射科醫師每天面對不同廠牌的機器,都很清楚影像品質的變異有多大。本研究中,驗證世代使用了高達 19 台不同的 CT 掃描儀,原始世代則只有 5 台。影像組學特徵極度容易受到掃描儀硬體、切片厚度、管電流與對比劑濃度的影響。這意味著,模型當初學到的可能根本不是 LTP 的生物學特徵,而是「特定幾台 CT 機器的影像雜訊」。雖然作者嘗試利用影像重採樣 (image resampling) 來統一像素大小,並用 ComBat 技術校正,但因為參與的機器台數太多、單一機器的樣本數又太少,導致根本無法做到針對單一掃描儀的精準協調。

另一方面,臨床模型全盤皆輸的原因,在於特徵選擇的邏輯嚴重錯位,再加上基線特徵的分佈差異。原始世代消融的 CRLM 平均尺寸顯著較大 (18 mm,相較於驗證世代的 11 與 13 mm,p=0.047),且驗證世代包含較多異時性轉移瘤。回頭看 Table 3 中列出的臨床特徵,包含了「輔助化療」與「大腸癌 T 分期」,這些都是「病患層級」(patient-specific) 的參數。然而,LTP 完全是一個「病灶層級」(lesion-specific) 的結果。一位病患肝臟裡如果有兩顆轉移瘤被消融,它們的局部復發機率會受到消融邊緣夠不夠寬、鄰近血管的散熱效應等局部因素影響,絕不可能單純因為這位病患有接受過化療,兩顆腫瘤就擁有一模一樣的局部進展風險。這完美解釋了為什麼這些宏觀的臨床參數,在獨立的多中心世代中完全無法預測單一消融區的命運。

從 50% RQS 評分看放射科 AI 實務應用極限

對於忙碌的放射科醫師來說,這篇登上 European Radiology 的論文極具教育意義。在醫學文獻充斥著發表偏誤 (publication bias) 的當下,它勇敢地發表了徹底的負面結果。這篇文章的 Radiomics Quality Score (RQS,一套評估影像組學研究品質的標準化評分系統) 達到了 50%,在同領域中已算嚴謹。它強烈提醒我們,當廠商或學術界拿著極高 AUC 值的 AI 輔助軟體來推銷時,第一件該問的事就是:「這個模型有沒有經過不同廠牌 CT、不同醫院病患族群的獨立外部驗證?」如果沒有,那些華麗的數字可能經不起真實臨床環境的考驗。

從這項研究也可以看出,預期要靠消融後早期的電腦斷層紋理分析,來改變病患的追蹤排程,目前的技術門檻還遙不可及。未來的研究如果要成功,必須在影像擷取階段就盡可能標準化,並且在模型開發初期,就應該利用同一個病患的重複掃描來篩選出足夠穩定的特徵。除此之外,針對消融區複雜的組成,排除穿刺軌跡、殘留氣泡的影響也是一門學問。身為放射線專科醫師,我們在日常打報告時,仍需老老實實地比對多次隨訪的影像時間軸變化,仔細觀察消融邊緣是否有不規則的、結節狀的對比劑增強,這依然是目前診斷 LTP 唯一可靠的守則。

當下一篇論文又宣稱用 CT radiomics 預測復發達到 0.9 的準確率時,請先找找它有沒有獨立外部驗證數據,否則那些漂亮的訓練集分數,臨床價值大概跟你拋硬幣差不多。

Abstract

External validation of six radiomic models published in three studies: two distinguishing benign from malignant lesions (study 1) and four distinguishing pleomorphic adenomas from Warthin's tumors (studies 2 and 3). This monocentric retrospective study included 133 patients who underwent MRI before parotid tumor surgery at our center from 2005 to 2022. For study 1, T1 and T2FS images of 109 benign lesions and 21 malignant ones were included. For study 2, T1 and T2FS images of 58 pleomorphic adenomas and 34 Warthin's tumors were included. For study 3, T2 images of 35 pleomorphic adenomas and 16 Warthin's tumors were included. After segmentation and extraction of the radiomics parameters, the radiomics (Radscore) and combined clinical and radiomics (Nomoscore) models from all 3 studies were applied. Performance was also studied after ComBat harmonization for multiple scanners. Performance was studied on all patients and for studies 1 and 2 on a subgroup of 58 patients who had undergone their examination on the same MRI machine. AUCs were 0.540/0.548 (Radscore/Nomoscore) for study 1, 0.521/0.521 for study 2, and 0.639/0.630 for study 3, whereas the AUCs in the original studies were 0.908/0.938, 0.902/0.918, and 0.796/0.934, respectively. The results were similar after ComBat harmonization. In the subgroup analysis, the AUCs were 0.533/0.538 for study 1 and 0.513/0.516 for study 2. Our external validation study was unable to reproduce the results of the six published radiomic models for characterizing parotid lesions, suggesting the limited applicability of these radiomic tools in clinical practice. Question We aimed to perform an external validation of six previously published MRI radiomic models for the characterization of parotid lesions. Findings The performances on our population of the six radiomic models were lower than in the initial studies, the highest AUC being 0.639. Clinical relevance Our study failed to replicate the performance of the six previously published MRI radiomic models for the characterization of parotid lesions, indicating that the clinical applicability of these radiomic approaches is limited.