Can ADC differentiate cellular from acellular mucin in mucinous adenocarcinoma tumor beds after treatment of rectal cancer? A multicenter study.
多中心 MRI 的 ADC 變異有 64% 被硬體綁架,全體積圈選的價值遠勝次專科資歷,高階特徵跨軟體重現率幾近歸零。
- ADC 數值的變異有 64.3% 來自 MRI 機器參數(TR/TE/b值等),腫瘤本身的生物學特性僅能解釋 0.4%。
- 只要採取 3D 全腫瘤體積圈選,住院醫師與十年經驗專家的特徵一致性極高(中位 ICC 0.90),單一切面則極不可靠。
- 特徵萃取軟體(PyRadiomics vs CapTk)切換時,一階與形狀特徵高度穩定,但 GLSZM 等高階紋理特徵 ICC 慘跌至 0.00。
腫瘤的表觀擴散係數(ADC)數值變化,其實只有 0.4% 來自病患本身的腫瘤特性,高達 64.3% 都是被不同醫院的掃描硬體與參數所操控。當我們熱衷於在多中心研究中利用 radiomics(從影像自動抽上千個量化特徵)來預測直腸癌療效時,這項來自荷蘭九家醫院、涵蓋 649 位病患的真實數據給了一記重擊。若不針對掃描儀器差異進行校正,我們訓練出來的 AI 測量到的極可能只是機器雜訊,而非真正的生物學變化。
直腸 MRI 跨九家醫院的 649 例分析設計
這項回顧性多中心研究收集了 2012 至 2017 年間,荷蘭九家醫院(包含一家三級腫瘤轉診中心、一家學術醫學中心與七家非學術醫院)的直腸癌病患影像。所有病患皆有切片證實的直腸腺癌,並接受過術前輔助治療(同步化放療或 5x5 Gray 短療程放射治療搭配長觀察期),隨後進行手術或採取 Watch-and-wait 策略。研究團隊最初納入 742 位病患,經過嚴格把關,排除了 43 例影像品質不具診斷價值、7 例 T2W 與 DWI 幾何嚴重不匹配、18 例黏液性腫瘤、6 例合併直腸周圍膿瘍、9 例視野內有多發腫瘤,以及 10 例影像未完全涵蓋腫瘤的個案,最終留下 649 位病患進入分析。
影像處理方面,所有 T2W-MRI 像素值被常態化為平均值 0、標準差 100,並將所有影像重新採樣至 2×2×2 mm 的統一像素間距。為了探討圈選方法造成的變異,研究在 3D-slicer 軟體(版本 4.10.2)中建立了三種腫瘤切割模型:第一種是非專家圈選(由無直腸 MRI 專長的住院醫師使用 level-tracing 演算法搭配手動微調)、第二種是專家圈選(具有十年以上直腸 MRI 經驗的主治醫師逐切面精細描繪)、第三種則是從專家圈選中萃取出的最大單一截面(Single-slice)。
特徵萃取階段,團隊選用了兩種開源軟體 PyRadiomics(版本 v3.0)與 CapTk(版本 1.8.1)。從專家全體積圈選的模型中,共抽取出 52 個定義重疊的影像特徵,包含 14 個一階特徵(First-order,如平均值、變異數)、6 個形狀特徵(Shape,如體積、球形度),以及 32 個高階特徵(Higher-order),涵蓋 7 個 GLCM(灰階共生矩陣,描述像素相鄰關係)、16 個 GLSZM(灰階大小區域矩陣,評估同質性斑塊大小)、4 個 GLRLM(灰階連貫矩陣,測量連續相同灰階長度)與 5 個 NGTDM(相鄰灰階差值矩陣,量化影像粗糙度)。
| 掃描參數 | T2W-MRI 中位數 (範圍) | DWI 中位數 (範圍) |
|---|---|---|
| 重複時間 TR (ms) | 4235 (866–16738) | 5475 (948–11000) |
| 回音時間 TE (ms) | 108 (60–250) | 80 (37–117) |
| 切面厚度 (mm) | 3 (3–5) | 5 (2.7–8) |
| 訊號平均次數 NSA | 2 (1–6) | 5 (1–15) |
| 最高 b 值 | 不適用 | 1000 (600–2000) |
九家醫院、26台 MRI 設備的驚人差異
Table 3 拆解 ADC 變異的 64.3% 硬體主導權
為了解析各中心數據分布差異,研究首先比較了各家醫院的基本參數。這九家醫院總共使用了 26 台不同的 MRI 設備、涵蓋 13 種機型,並橫跨 Philips、Siemens 與 GE 三大廠牌,磁場強度包含 1.5T(19台)與 3T(7台)。掃描參數差異極大,例如 T2W 的重複時間(TR)介於 866 至 16,738 ms 之間,DWI 的最高 b 值則分佈在 600 至 2000 之間。Kruskal-Wallis 檢定證實,六個基礎影像特徵(最小值、最大值、平均值、標準差、熵、體積)在不同醫院間存在顯著差異(p < 0.001),且 ADC 值的波動幅度遠大於 T2W-MRI。經過兩兩比較(Mann-Whitney U 檢定配對 Bonferroni 校正),發現腫瘤體積是最穩定的指標,各中心間差異最小。
Table 3 呈現了多變數線性迴歸模型的心血結晶,用以釐清究竟是什麼因素決定了腫瘤平均 ADC 值。研究採用 LOOCV(留一法交叉驗證,一種嚴苛的預測力評估法)計算出 R 平方值。驚人的是,病患固有的臨床特徵(包含年齡、性別、臨床 T/N 分期、對化放療的反應以及腫瘤體積)總共只能解釋 0.4% 的 ADC 變異。相對地,硬體與掃描參數(包含 TR、TE、切面厚度、平面解析度、訊號平均次數 NSA、最高 b 值、b 值數量、訊號雜訊比 SNR 與機器型號)聯手解釋了高達 64.3% 的 ADC 變異。
若單獨使用一個名為「Center」的涵蓋性變數(代表包含病患準備流程、線圈選擇等未記錄的各院潛在差異),則能解釋 32.5% 的變異。當把所有變數(硬體參數加上病患特徵與醫院變數)放進同一個模型中,整體能預測 63.5% 的資料變異。這意味著如果直接把多中心的 ADC 數值拿來跑統計或訓練 AI,而不先處理不同設備造成的數據位移,我們找出的所謂「預測療效閾值」,根本只是各醫院機器的參數指紋。
| 變數群組 | 可解釋 ADC 變異比例 | 涵蓋的關鍵參數 |
|---|---|---|
| 硬體與掃描參數 | 64.3% | TR, TE, 切厚, 解析度, b值設定, 機器型號等 |
| 未記錄之醫院綜合效應 | 32.5% | 各院未明文的腸道準備、特定線圈選擇等 |
| 病患與腫瘤固有特徵 | 0.4% | 年齡, 性別, T分期, N分期, 腫瘤體積, 療效反應 |
留一法交叉驗證 (LOOCV R²) 線性迴歸結果
Figure 4A 破除次專科醫師全體積圈選的迷思
在影像組學領域,手動圈選(Segmentation)被視為最耗時且容易引發觀察者間差異的步驟。然而 Figure 4A 顯示的數據,大幅翻轉了我們對「一定要資深主治醫師來畫 ROI」的刻板印象。使用 ICC(組內相關係數,大於 0.90 代表極佳一致性)來評估特徵的再現性,結果顯示:具有十年經驗的專家與完全沒有直腸專長的住院醫師,兩者畫出的全體積 ROI 所萃取出的特徵具有高度一致性。
具體而言,在 T2W-MRI 影像上,專家與非專家圈選產生的特徵 ICC 介於 0.72 至 0.99 之間(中位數高達 0.90);在 ADC 影像上,ICC 介於 0.53 至 0.99 之間(中位數 0.89)。無論是一階特徵、形狀特徵還是高階紋理特徵,絕大多數都落在良好至極佳的再現性區間。這表示只要確保是執行全腫瘤體積(Whole-volume)的圈選,操作者本身的資歷深淺對最終影像特徵的影響微乎其微。
與此形成強烈對比的,是為了省時間而常被妥協使用的「單一最大截面(Single-slice)」圈選法。將專家畫出的單一截面與專家的全體積圈選進行對比,再現性呈現斷崖式下跌。在 T2W-MRI 上,單一截面特徵的 ICC 暴跌至 0.00 至 0.94(中位數僅 0.40);ADC 上的 ICC 則是 0.00 至 0.97(中位數 0.58)。其中,形狀特徵、GLSZM 以及 NGTDM 這些高階特徵的表現尤其慘烈。這強烈暗示,在放射科實務與研究中,耗費人力執行全體積切割是不可省略的必要投資,但這項苦力活大可交給住院醫師或半自動演算法代勞。
Figure 4B 軟體切換導致高階特徵的再現性崩壞
除了圈選者的差異,特徵萃取軟體的運算邏輯是否統一,也是多中心研究經常忽略的地雷。研究團隊在固定使用專家全體積 ROI 的前提下,對比了 PyRadiomics 與 CapTk 這兩款主流開源軟體產出的數據。Figure 4B 詳實記錄了各類特徵在軟體切換下的存活率。
多數基礎特徵展現了堅若磐石的穩定度:一階特徵(First-order)、形狀特徵(Shape)、GLCM 與 GLRLM 在這兩款軟體間的轉換毫無阻礙,無論是來自 T2W 還是 ADC,其中位數 ICC 皆逼近 0.99。然而,更高階的紋理特徵卻面臨徹底的再造性崩壞。大部分的 GLSZM 與 NGTDM 特徵在軟體間的 ICC 處於不及格狀態,T2W 上的中位數 ICC 居然低至 0.00(區間 0.00–0.56),ADC 上的中位數 ICC 也僅有 0.41(區間 0.01–0.99)。
這種現象的根源在於高階矩陣的數學定義與影像前處理(如灰階離散化、bin-width 設定)在不同軟體套件中有著截然不同的底層實作邏輯。這項數據警告我們,當看到文獻宣稱某個複雜的 GLSZM 特徵能完美預測直腸癌淋巴結轉移時,如果對方沒有明確交代使用的軟體版本,甚至沒有遵循 IBSI(影像生物標記標準化倡議)的規範,這個預測模型到了你的醫院、用你的軟體重跑一次,成功率可能趨近於零。
以百分比呈現中位數組內相關係數 (ICC*100)
跨院標準化泥沼與影像量化研究的適用範圍
針對如何消弭不同醫院造成的「中心效應(Center effects)」,作者在補充文件(Supplementary Materials 1)中坦承了目前技術的侷限。他們嘗試回溯性地統一 b 值計算,結果徒勞無功;而利用病患自體的腹股溝淋巴結作為參考器官來進行影像標準化(Normalization),雖然微幅降低了 ADC 數據的跨院波動,但統計上各中心的差異依然顯著。這表示純粹透過後處理在影像網格層級(Image domain)進行校正,仍無法完全洗去硬體差異的烙印。
在研究限制方面,作者承認由於去識別化規範,DICOM 標頭檔中諸如線圈種類、脂肪抑制技術(Fat suppression)、MRI 軟體升級版本以及病患腸道準備狀態等關鍵變數被抹除,這些未知的參數可能正是構成「Center」這個綜合變數能解釋 32.5% 變異的原因。此外,為了作業效率,所有的腫瘤 ROI 都是在高 b 值 DWI 上圈選後,直接套用到 T2W 與 ADC 上。儘管圈選時有參考 T2W 的解剖構造,但嚴謹來說,未在 T2W 影像上進行獨立的邊界微調,可能導致部分 T2W 專屬的邊緣特徵失真。
對於忙碌的放射科醫師而言,這篇論文提供了極具實用價值的避雷指南。在設計或審閱預測直腸癌療效的 AI 模型時,我們必須認清:腫瘤體積與一階影像特徵是目前最耐打的武器;若想使用 ADC 絕對值作為評斷標準,未經 ComBat 特徵層級協調(一種針對批次效應的統計校正法)或混合效應模型校正的多中心數據,不具備普適性。寧可捨棄那些無法跨軟體重現的高階紋理特徵,換取一個能在不同廠牌 MRI 機台上穩定運作的簡單模型。
跨院研究別盲目套用同一組 ADC 絕對閾值;比起糾結讓主治醫師親自圈 ROI,確保使用「全體積圈選」並主動捨棄高階紋理特徵,才是避免 AI 模型在別家醫院見光死的護城河。