Can ADC differentiate cellular from acellular mucin in mucinous adenocarcinoma tumor beds after treatment of rectal cancer? A multicenter study.

El Homsi Maria, Mazaheri Yousef, Kuten Jonathan, Yildirim Onur, Corines Marina, et al.

View Original ↗
AI 導讀 academic MR 重要性 4/5

多中心 MRI 的 ADC 變異有 64% 被硬體綁架,全體積圈選的價值遠勝次專科資歷,高階特徵跨軟體重現率幾近歸零。

  • ADC 數值的變異有 64.3% 來自 MRI 機器參數(TR/TE/b值等),腫瘤本身的生物學特性僅能解釋 0.4%。
  • 只要採取 3D 全腫瘤體積圈選,住院醫師與十年經驗專家的特徵一致性極高(中位 ICC 0.90),單一切面則極不可靠。
  • 特徵萃取軟體(PyRadiomics vs CapTk)切換時,一階與形狀特徵高度穩定,但 GLSZM 等高階紋理特徵 ICC 慘跌至 0.00。

腫瘤的表觀擴散係數(ADC)數值變化,其實只有 0.4% 來自病患本身的腫瘤特性,高達 64.3% 都是被不同醫院的掃描硬體與參數所操控。當我們熱衷於在多中心研究中利用 radiomics(從影像自動抽上千個量化特徵)來預測直腸癌療效時,這項來自荷蘭九家醫院、涵蓋 649 位病患的真實數據給了一記重擊。若不針對掃描儀器差異進行校正,我們訓練出來的 AI 測量到的極可能只是機器雜訊,而非真正的生物學變化。

直腸 MRI 跨九家醫院的 649 例分析設計

這項回顧性多中心研究收集了 2012 至 2017 年間,荷蘭九家醫院(包含一家三級腫瘤轉診中心、一家學術醫學中心與七家非學術醫院)的直腸癌病患影像。所有病患皆有切片證實的直腸腺癌,並接受過術前輔助治療(同步化放療或 5x5 Gray 短療程放射治療搭配長觀察期),隨後進行手術或採取 Watch-and-wait 策略。研究團隊最初納入 742 位病患,經過嚴格把關,排除了 43 例影像品質不具診斷價值、7 例 T2W 與 DWI 幾何嚴重不匹配、18 例黏液性腫瘤、6 例合併直腸周圍膿瘍、9 例視野內有多發腫瘤,以及 10 例影像未完全涵蓋腫瘤的個案,最終留下 649 位病患進入分析。

影像處理方面,所有 T2W-MRI 像素值被常態化為平均值 0、標準差 100,並將所有影像重新採樣至 2×2×2 mm 的統一像素間距。為了探討圈選方法造成的變異,研究在 3D-slicer 軟體(版本 4.10.2)中建立了三種腫瘤切割模型:第一種是非專家圈選(由無直腸 MRI 專長的住院醫師使用 level-tracing 演算法搭配手動微調)、第二種是專家圈選(具有十年以上直腸 MRI 經驗的主治醫師逐切面精細描繪)、第三種則是從專家圈選中萃取出的最大單一截面(Single-slice)。

特徵萃取階段,團隊選用了兩種開源軟體 PyRadiomics(版本 v3.0)與 CapTk(版本 1.8.1)。從專家全體積圈選的模型中,共抽取出 52 個定義重疊的影像特徵,包含 14 個一階特徵(First-order,如平均值、變異數)、6 個形狀特徵(Shape,如體積、球形度),以及 32 個高階特徵(Higher-order),涵蓋 7 個 GLCM(灰階共生矩陣,描述像素相鄰關係)、16 個 GLSZM(灰階大小區域矩陣,評估同質性斑塊大小)、4 個 GLRLM(灰階連貫矩陣,測量連續相同灰階長度)與 5 個 NGTDM(相鄰灰階差值矩陣,量化影像粗糙度)。

649 例多中心掃描參數變異範圍
掃描參數T2W-MRI 中位數 (範圍)DWI 中位數 (範圍)
重複時間 TR (ms)4235 (866–16738)5475 (948–11000)
回音時間 TE (ms)108 (60–250)80 (37–117)
切面厚度 (mm)3 (3–5)5 (2.7–8)
訊號平均次數 NSA2 (1–6)5 (1–15)
最高 b 值不適用1000 (600–2000)

九家醫院、26台 MRI 設備的驚人差異

Table 3 拆解 ADC 變異的 64.3% 硬體主導權

為了解析各中心數據分布差異,研究首先比較了各家醫院的基本參數。這九家醫院總共使用了 26 台不同的 MRI 設備、涵蓋 13 種機型,並橫跨 Philips、Siemens 與 GE 三大廠牌,磁場強度包含 1.5T(19台)與 3T(7台)。掃描參數差異極大,例如 T2W 的重複時間(TR)介於 866 至 16,738 ms 之間,DWI 的最高 b 值則分佈在 600 至 2000 之間。Kruskal-Wallis 檢定證實,六個基礎影像特徵(最小值、最大值、平均值、標準差、熵、體積)在不同醫院間存在顯著差異(p < 0.001),且 ADC 值的波動幅度遠大於 T2W-MRI。經過兩兩比較(Mann-Whitney U 檢定配對 Bonferroni 校正),發現腫瘤體積是最穩定的指標,各中心間差異最小。

Table 3 呈現了多變數線性迴歸模型的心血結晶,用以釐清究竟是什麼因素決定了腫瘤平均 ADC 值。研究採用 LOOCV(留一法交叉驗證,一種嚴苛的預測力評估法)計算出 R 平方值。驚人的是,病患固有的臨床特徵(包含年齡、性別、臨床 T/N 分期、對化放療的反應以及腫瘤體積)總共只能解釋 0.4% 的 ADC 變異。相對地,硬體與掃描參數(包含 TR、TE、切面厚度、平面解析度、訊號平均次數 NSA、最高 b 值、b 值數量、訊號雜訊比 SNR 與機器型號)聯手解釋了高達 64.3% 的 ADC 變異。

若單獨使用一個名為「Center」的涵蓋性變數(代表包含病患準備流程、線圈選擇等未記錄的各院潛在差異),則能解釋 32.5% 的變異。當把所有變數(硬體參數加上病患特徵與醫院變數)放進同一個模型中,整體能預測 63.5% 的資料變異。這意味著如果直接把多中心的 ADC 數值拿來跑統計或訓練 AI,而不先處理不同設備造成的數據位移,我們找出的所謂「預測療效閾值」,根本只是各醫院機器的參數指紋。

腫瘤平均 ADC 數值的變異來源剖析
變數群組可解釋 ADC 變異比例涵蓋的關鍵參數
硬體與掃描參數64.3%TR, TE, 切厚, 解析度, b值設定, 機器型號等
未記錄之醫院綜合效應32.5%各院未明文的腸道準備、特定線圈選擇等
病患與腫瘤固有特徵0.4%年齡, 性別, T分期, N分期, 腫瘤體積, 療效反應

留一法交叉驗證 (LOOCV R²) 線性迴歸結果

Figure 4A 破除次專科醫師全體積圈選的迷思

在影像組學領域,手動圈選(Segmentation)被視為最耗時且容易引發觀察者間差異的步驟。然而 Figure 4A 顯示的數據,大幅翻轉了我們對「一定要資深主治醫師來畫 ROI」的刻板印象。使用 ICC(組內相關係數,大於 0.90 代表極佳一致性)來評估特徵的再現性,結果顯示:具有十年經驗的專家與完全沒有直腸專長的住院醫師,兩者畫出的全體積 ROI 所萃取出的特徵具有高度一致性。

具體而言,在 T2W-MRI 影像上,專家與非專家圈選產生的特徵 ICC 介於 0.72 至 0.99 之間(中位數高達 0.90);在 ADC 影像上,ICC 介於 0.53 至 0.99 之間(中位數 0.89)。無論是一階特徵、形狀特徵還是高階紋理特徵,絕大多數都落在良好至極佳的再現性區間。這表示只要確保是執行全腫瘤體積(Whole-volume)的圈選,操作者本身的資歷深淺對最終影像特徵的影響微乎其微。

與此形成強烈對比的,是為了省時間而常被妥協使用的「單一最大截面(Single-slice)」圈選法。將專家畫出的單一截面與專家的全體積圈選進行對比,再現性呈現斷崖式下跌。在 T2W-MRI 上,單一截面特徵的 ICC 暴跌至 0.00 至 0.94(中位數僅 0.40);ADC 上的 ICC 則是 0.00 至 0.97(中位數 0.58)。其中,形狀特徵、GLSZM 以及 NGTDM 這些高階特徵的表現尤其慘烈。這強烈暗示,在放射科實務與研究中,耗費人力執行全體積切割是不可省略的必要投資,但這項苦力活大可交給住院醫師或半自動演算法代勞。

Figure 4B 軟體切換導致高階特徵的再現性崩壞

除了圈選者的差異,特徵萃取軟體的運算邏輯是否統一,也是多中心研究經常忽略的地雷。研究團隊在固定使用專家全體積 ROI 的前提下,對比了 PyRadiomics 與 CapTk 這兩款主流開源軟體產出的數據。Figure 4B 詳實記錄了各類特徵在軟體切換下的存活率。

多數基礎特徵展現了堅若磐石的穩定度:一階特徵(First-order)、形狀特徵(Shape)、GLCM 與 GLRLM 在這兩款軟體間的轉換毫無阻礙,無論是來自 T2W 還是 ADC,其中位數 ICC 皆逼近 0.99。然而,更高階的紋理特徵卻面臨徹底的再造性崩壞。大部分的 GLSZM 與 NGTDM 特徵在軟體間的 ICC 處於不及格狀態,T2W 上的中位數 ICC 居然低至 0.00(區間 0.00–0.56),ADC 上的中位數 ICC 也僅有 0.41(區間 0.01–0.99)。

這種現象的根源在於高階矩陣的數學定義與影像前處理(如灰階離散化、bin-width 設定)在不同軟體套件中有著截然不同的底層實作邏輯。這項數據警告我們,當看到文獻宣稱某個複雜的 GLSZM 特徵能完美預測直腸癌淋巴結轉移時,如果對方沒有明確交代使用的軟體版本,甚至沒有遵循 IBSI(影像生物標記標準化倡議)的規範,這個預測模型到了你的醫院、用你的軟體重跑一次,成功率可能趨近於零。

圈選與軟體切換的影像特徵一致性 (ICC)

以百分比呈現中位數組內相關係數 (ICC*100)

跨院標準化泥沼與影像量化研究的適用範圍

針對如何消弭不同醫院造成的「中心效應(Center effects)」,作者在補充文件(Supplementary Materials 1)中坦承了目前技術的侷限。他們嘗試回溯性地統一 b 值計算,結果徒勞無功;而利用病患自體的腹股溝淋巴結作為參考器官來進行影像標準化(Normalization),雖然微幅降低了 ADC 數據的跨院波動,但統計上各中心的差異依然顯著。這表示純粹透過後處理在影像網格層級(Image domain)進行校正,仍無法完全洗去硬體差異的烙印。

在研究限制方面,作者承認由於去識別化規範,DICOM 標頭檔中諸如線圈種類、脂肪抑制技術(Fat suppression)、MRI 軟體升級版本以及病患腸道準備狀態等關鍵變數被抹除,這些未知的參數可能正是構成「Center」這個綜合變數能解釋 32.5% 變異的原因。此外,為了作業效率,所有的腫瘤 ROI 都是在高 b 值 DWI 上圈選後,直接套用到 T2W 與 ADC 上。儘管圈選時有參考 T2W 的解剖構造,但嚴謹來說,未在 T2W 影像上進行獨立的邊界微調,可能導致部分 T2W 專屬的邊緣特徵失真。

對於忙碌的放射科醫師而言,這篇論文提供了極具實用價值的避雷指南。在設計或審閱預測直腸癌療效的 AI 模型時,我們必須認清:腫瘤體積與一階影像特徵是目前最耐打的武器;若想使用 ADC 絕對值作為評斷標準,未經 ComBat 特徵層級協調(一種針對批次效應的統計校正法)或混合效應模型校正的多中心數據,不具備普適性。寧可捨棄那些無法跨軟體重現的高階紋理特徵,換取一個能在不同廠牌 MRI 機台上穩定運作的簡單模型。

跨院研究別盲目套用同一組 ADC 絕對閾值;比起糾結讓主治醫師親自圈 ROI,確保使用「全體積圈選」並主動捨棄高階紋理特徵,才是避免 AI 模型在別家醫院見光死的護城河。

Abstract

To determine if the apparent diffusion coefficient (ADC) can distinguish acellular mucin from cellular mucin in the treated tumor bed of patients with mucinous rectal adenocarcinoma after neoadjuvant therapy. This retrospective study included patients with mucinous rectal adenocarcinoma treated with neoadjuvant therapy, followed by restaging MRI and surgical resection or biopsy. Three radiologists blinded to histopathology results independently segmented volumes of interest on diffusion-weighted imaging and ADC maps. A medical physicist performed histogram analysis of ADC map segmentations, calculating various ADC metrics: mean, standard deviation, median, 1st quartile, 2nd quartile, 3rd quartile, and 4th quartile. The Wilcoxon rank sum test with false discovery rate correction for multiple testing was used to examine associations between ADC metrics and tumor mucin cellularity at histopathology for each reader. Multivariable logistic regression was used to adjust for acquisition parameters and institutions. Of 150 patients (mean age, 58 ± 14 years; 48/150 (32% female), 25 patients (17%) had acellular mucin and 125 (83%) had cellular mucin at histopathology. At univariable analysis, there was no significant association between any ADC metric and tumor mucin cellularity (q-value = 0.14-0.58). At multivariable analysis, most ADC metrics were significantly associated with tumor mucin cellularity for all readers (q-values = 0.016-0.025) with odds ratios between 0.09 (95% CI: 0.02, 0.42) and 0.49 (95% CI: 0.22, 0.96). ADC may be a potential tool for assessing pathologic complete response in mucinous rectal adenocarcinoma after neoadjuvant treatment, after adjusting for acquisition parameters and institutions. QuestionCan the apparent diffusion coefficient (ADC) distinguish between cellular and acellular mucin (i.e., pathologic complete response) in mucinous rectal adenocarcinoma after neoadjuvant therapy? FindingsAfter controlling for acquisition parameters, ADC metrics were significantly associated with tumor mucin cellularity. Clinical relevanceAcellular mucin is equivalent to clinical complete response and can undergo watch-and-wait management, whereas cellular mucin is incomplete response, and its safety for watch-and-wait management is not validated. ADC may be a potential tool to make the distinction to assist treatment decision-making.