Application of transformer-enhanced convolutional neural network: multicenter MRI assessment of muscle invasion in bladder cancer.

Fan Zhichang, Li Ding, Chen Wenjing, Li Yan, Guo Junting, et al.

View Original ↗
AI 導讀 academic MR 重要性 4/5

只要 100 個病例的互動培訓,新手住院醫師判讀膀胱癌 VI-RADS 的準確率就能逼近十年專家,且單筆閱片時間縮短 32%。

  • 100 例是關鍵分水嶺:培訓 100 例後,新手與專家的 VI-RADS 評分吻合度可從 65% 暴增至 82%,AUC 最終高達 0.96。
  • 判讀時間減半的效益:對於零經驗的第一年住院醫師,完成 150 例培訓能將單一病例判讀時間由 6 分鐘壓縮至 3 分鐘。
  • 影像品質決定專家價值:在最差影像品質下一致性僅 0.547,模糊影像的判讀仍是新手無法單靠短期培訓克服的死角。

即使是毫無膀胱磁振造影經驗的住院醫師,只要看滿 100 個病例並接受結構化教學,他們與資深專家的 VI-RADS 評分吻合度就能從 65% 暴增至 82%。膀胱癌影像過去常被認為需要長時間累積經驗才能駕馭,但這份針對學習曲線的研究直接打破迷思,證實短期的互動式培訓不僅能讓新手快速上手,還能將單一病例的判讀時間從 5.21 分鐘大幅壓縮到 3.52 分鐘,同時維持高達 94% 的特異度。

互動式培訓設計與 250 次判讀的驗證隊列

膀胱癌作為全球第十大常見惡性腫瘤,每年新增超過五十五萬例,其高復發特性與反覆的住院治療,使其成為所有癌症中每位病患終生經濟負擔最高的疾病。為了在術前準確區分病患是否罹患 MIBC(肌肉侵犯型膀胱癌,腫瘤突破黏膜下層侵犯肌肉),MRI(磁振造影)已經成為不可或缺的利器。為了解決各醫院判讀標準不一的問題,國際學界推出了 VI-RADS(一套利用磁振造影區分肌肉侵犯的國際標準計分)。然而,對於剛踏入放射科的住院醫師而言,這套系統的學習曲線究竟有多長?這份由羅馬大學團隊發表於《European Radiology》的研究,招募了三位幾乎沒有膀胱 MRI 經驗(生涯判讀不到 20 例)的住院醫師,進行為期三個月的密集互動式培訓。

研究團隊前瞻性地篩選了 200 名連續收案的膀胱癌病患影像,這批病患皆未曾接受過術前全身性治療。在掃描參數上,絕大多數(96.5%)採用 3T 磁振造影儀器,常規施打肌肉抗痙攣藥物以減少腸蠕動假影,並要求病患檢查前飲水 500 至 1000 毫升以達成最佳的膀胱擴張。影像序列完全依照 VI-RADS 規範,包含三個切面的 T2WI(常規解剖結構之 T2 加權影像)、多個 b 值的 DWI(利用水分子運動偵測腫瘤的擴散影像),以及時間解析度達 8 秒的 DCE(打藥後觀察血管生成的動態對比影像)。

這 200 個病例被平均拆分為四個批次(Batch 1 到 4,每批 50 例)。三位住院醫師在盲解的情況下進行評分,期間穿插了由資深醫師講授的 PACS(醫療影像儲傳系統,科內日常看片軟體)實作、VI-RADS 各分級細節剖析,以及針對困難與分歧案例的專題討論。在完成這 200 例的判讀後,經過兩個月的「記憶消除期」,團隊讓他們重新判讀第一批次的 50 個病例(標記為 Batch 5),藉此比對培訓前後的絕對進步幅度。所有結果皆以一位擁有 10 年經驗、累積判讀超過 500 例膀胱 MRI 的資深泌尿放射科專家的報告作為參考標準(Reference Standard)。

Figure 2 呈現的 100 例學習曲線突破點

判讀一致性是衡量學習曲線是否達標的最直觀指標。從 Figure 2 繪製的學習曲線軌跡來看,三位住院醫師與資深專家的 VI-RADS 評分吻合度,在經歷第一批次到第二批次的轉換時,出現了極為陡峭的爬升,平均一致性比例由 65% 躍升至 82%。這意味著大約在看滿 100 個病例並接受了兩階段的結構化教學後,新手對於膀胱腫瘤特徵的掌握度會產生質的飛躍。在隨後的第三至第五批次中,這條學習曲線進入了緩慢上升的高原期,最終在第五批次達到 87% 的吻合度。

若細看 Table 2 的 Cohen's kappa (k) 統計量,這種進步趨勢更為具體。整體平均 k 值從培訓初期的 0.519(中等一致性)顯著提升至培訓期末的 0.801(高度一致性)。特別值得一提的是,當研究團隊讓住院醫師重新判讀曾經看過的第一批次影像(即 Batch 5)時,前後的 kappa 值出現了驚人的對比。以 Reader 1 為例,面對同一組病例,其判讀 k 值從最初的 0.555 暴增至 0.852;Reader 3 也從 0.481 成長至 0.794。

然而,學習曲線並非總是平滑向上的。Reader 2 的表現在第三批次出現了微幅下滑(k 值由 Batch 2 的 0.815 跌至 Batch 3 的 0.668)。作者團隊深入調閱資料後解釋,這很可能是因為第二批次的 50 個影像中,被歸類為「低影像品質」的案例極少(僅有 5 例)。這種病患母體影像條件的波動,造就了數據上的異常突起。但整體而言,只要跨過 100 例的門檻,住院醫師的評分邏輯就能高度貼近十年經驗的主治醫師。

Table 3 展現的肌肉侵犯診斷敏感度與特異度

在臨床實務上,泌尿外科醫師最關心的問題始終是「腫瘤到底有沒有吃進肌肉層?」這直接決定了病患需要接受經尿道腫瘤刮除術還是徹底的膀胱全切除術。本研究將 VI-RADS 分數 ≥3 定義為懷疑肌肉侵犯的閾值,並以資深專家的判讀結果作為基準,詳細檢視了三位住院醫師的診斷效能。根據 Table 3 列出的整體表現,三位醫師在偵測肌肉侵犯的敏感度落在 84% 到 89% 之間,而特異度則高達 91% 到 94%

進一步分析接收者操作特徵曲線(ROC),三位住院醫師整體的 AUC 分別為 0.89(95% CI: 0.84-0.94)、0.89(95% CI: 0.84-0.94)與 0.90(95% CI: 0.86-0.95)。如果我們把目光放到個別批次的演進上,平均 AUC 從第一批次的 0.82 大幅進步到第五批次的 0.96。這不僅證實了培訓計畫的有效性,也說明了 VI-RADS 系統本身具有高度的可重現性。即便是由新手操作,在訓練後也能把特異度維持在九成以上的優異水準,有效減少過度診斷與不必要的手術擴展。

單一分級的準確率卻暗藏另一個觀察重點。當住院醫師必須給出 VI-RADS 3(模稜兩可、肌肉層可能受侵犯但特徵不明顯)的判定時,其單獨的 AUC 僅有 0.59 到 0.76,是所有分級中表現最差的一群。這顯示「灰地帶」的判斷依然是最依賴長期經驗累積的領域。不過,令團隊振奮的是,在總共 250 次的評估中,住院醫師給出 VI-RADS 3 的比例皆低於或等於 11%。相較於其他器官的影像報告系統常出現大量無法決定的評分,VI-RADS 能迫使讀片者給出更明確的傾向。

三位住院醫師對於肌肉侵犯的診斷效能

資料來源:Table 3。VI-RADS ≥3 視為肌肉侵犯

Table 4 與 Table 5 的判讀時間與信心指數變化

面對如今各大醫院放射科日益龐大的影像負擔,一項新的分級系統如果會嚴重拖慢讀片速度,就很難在日常流程中推廣。Table 4Figure 4 的數據打消了這個疑慮。隨著批次的推進,所有住院醫師的平均判讀時間從第一批次的 5.21 ± 1.12 分鐘,顯著縮減至第五批次的 3.52 ± 0.69 分鐘。尤其在前三個批次之間,時間的縮短具備極高的統計顯著性(p < 0.001)。

有趣的是,三位受試者的資歷差異在這裡產生了完全不同的效應。Reader 2 與 Reader 3 是剛入行的第一年住院醫師,他們的初始判讀時間分別高達 6.34 分鐘與 5.60 分鐘,但在經歷 150 例的訓練後,時間直接砍半,穩定在 3 分鐘出頭。相反地,Reader 1 是一位第四年的住院醫師,由於他本來就已經熟悉骨盆腔 MRI 的基礎解剖與軟體操作,他的判讀時間從頭到尾都穩定維持在 3.70 到 3.98 分鐘之間,並沒有因為 VI-RADS 專項培訓而進一步加速。這暗示了判讀速度的提升,更大程度上來自於對 MRI 基礎影像模式的熟悉,而非單純熟背 VI-RADS 的給分規則。

伴隨著速度加快的是醫師信心的建立。根據 Table 5 的五分制信心指數問卷調查,住院醫師的平均信心從初期的 3.31 分一路攀升至期末的 4.21 分。這個躍升主要集中在第一與第二批次之間(看滿 100 例時),隨後的批次則維持在高檔盤整。高度的自信心在判斷腫瘤是否吃進黏膜下層與固有肌層時至關重要,因為只要放射科醫師的報告夠篤定,臨床醫師就能大膽擬定治療計畫,這正是標準化培訓帶來最珍貴的無形資產。

平均判讀時間與信心指數隨批次之演進
批次進度平均判讀時間 (分鐘)平均信心指數 (1-5分)與前批次相比 p 值
Batch 1 (第 1-50 例)5.21 ± 1.123.31 ± 0.93-
Batch 2 (第 51-100 例)4.52 ± 0.913.91 ± 0.77<0.001
Batch 3 (第 101-150 例)3.86 ± 0.823.95 ± 0.90時間顯著減少 / 信心持平
Batch 4 (第 151-200 例)3.70 ± 0.774.12 ± 0.72均無顯著變化
Batch 5 (重判前 50 例)3.52 ± 0.694.21 ± 0.69均無顯著變化

資料來源:Table 4 與 Table 5

Table 6 點出的影像品質對一致性的干擾

在現實的急診與門診環境中,病患的配合度往往難以預測。有時病患憋不住尿導致膀胱未充分擴張,有時則因為腸道劇烈蠕動造成影像上佈滿假影。這份研究在 Table 6 針對影像品質這個次群組變數進行了深度挖掘,得出了一個非常重要的臨床限制:無論受過多嚴格的培訓,模糊的影像依然會輕易擊潰新手與專家之間的一致性。

研究團隊將影像品質分為三個等級,並進行交叉比對。結果顯示,當影像品質處於最佳狀態(IQ3)時,三位住院醫師與資深專家的 kappa 值平均高達 0.726(具備實質一致性)。然而,一旦影像品質退化到最差的等級(IQ1),平均 kappa 值便會垂直崩跌至 0.547。特別是在 T2 加權影像無法清晰分辨膀胱壁內層,或是擴散影像受到嚴重干擾時,住院醫師非常容易將局部發炎增厚誤判為肌肉層的侵犯。

作者團隊在此提出了一個關鍵的假設:資深放射科醫師的「經驗價值」,在清晰完美的影像中並不明顯,因為有了 VI-RADS 的輔助,新手也能照表操課得出正確結論;但當面臨殘缺、充滿雜訊的低品質影像時,專家能憑藉過去看過數千例的直覺,從蛛絲馬跡中拼湊出相對正確的答案,這正是住院醫師僅靠短期幾百例培訓所無法跨越的鴻溝。因此,努力維持第一線技師的擺位與掃描品質,是發揮 VI-RADS 系統最大效益的先決條件。

影像品質對判讀一致性的干擾
住院醫師最低品質 (IQ 1) kappa 值最佳品質 (IQ 3) kappa 值
Reader 10.5030.739
Reader 20.5080.726
Reader 30.6300.713
整體平均0.547 (中等一致)0.726 (實質一致)

資料來源:Table 6,與資深專家之 Cohen's kappa

學習曲線的高原期限制與臨床落地建議

從 Discussion 的自白來看,作者團隊坦承了本研究的幾項適用邊界。首先,作為 Reference Standard 的是一次專家的判讀,而非病理切片的最終化驗結果,這代表我們測量的是「醫師間的共識程度」,而非絕對的病理準確度。其次,本次收案的 200 個病例中,絕大多數都是由 3 Tesla 的高階儀器在醫學中心環境下完成,這意味著如果將這套培訓模式搬到只配置 1.5 Tesla 掃描儀的地區型醫院,由於訊號強度的先天劣勢,學習曲線可能會被大幅拉長。最後,研究並沒有設置一組「完全不給予教學回饋」的對照組,因此無法精準切割出自己多看片與專家親自指導兩者的效益占比。

對於每天要消化大量片子的放射科同行而言,這篇論文提供了非常具體的主治醫師教學藍圖。過去在教導住院醫師甚至實習醫師看骨盆腔 MRI 時,往往不知道該讓他們看多少病例才能逐漸放手。這份數據明確給出了一個基準線:100 到 150 例。超過這個閾值後,新手辨識肌肉層是否中斷的靈敏度就會趨於穩定。在教學資源有限的情況下,科內可以挑選出 100 個包含各種 VI-RADS 分數分布、且影像品質優良的經典庫存病例,做成一套線上的闖關題庫。

更實務的建議是,在住院醫師剛開始獨立發報告的前期,主治醫師應該把覆閱的重心放在那些被學弟妹標註為 VI-RADS 3 以及原始影像帶有明顯假影的案件上。正如本篇研究所證實的,這兩個情境是新手最容易翻車的死角。只要把握住這兩個教學重點,推動 VI-RADS 成為全科室的標準公版報告,其實遠比想像中容易,也能真正為泌尿科醫師帶來價值。

住院醫師剛開始報膀胱 MRI 時,務必先找 100 個高畫質的經典病例讓他們跟著打,否則遇到影像假影較重的急診件,不僅看片時間拖累,連 VI-RADS 3 的誤判率都會大幅飆升。

Abstract

Accurate preoperative assessment of muscle invasion in bladder cancer (BCa) guides therapy selection. However, MRI interpretation varies across readers and lesion morphologies. Therefore, we aimed to overcome the morphology-associated diagnostic bias through a deep learning method. This multicenter study included 1374 patients with BCa. An nnU-Net was fine-tuned to assist in lesion segmentation on T2-weighted images, providing inputs for a 2.5D ConvNeXt-tiny model to assess muscle invasion. The performance of the model was compared between pedunculated and sessile lesions. Furthermore, a head-to-head comparison was conducted among the model, a senior radiologist, and a junior radiologist. The validation Dice coefficient of nnU-net was 0.834. In the validation and three prospective test sets, the ConvNeXt-tiny model achieved areas under the receiver-operating characteristic curve of 0.915-0.925 for identifying muscle invasion in BCa, with accuracies of 84.9-91.0%, sensitivities of 81.3-96.2%, and specificities of 81.1-93.8%. In the subgroup analysis of pedunculated and sessile lesions, the model's diagnostic performance showed no significant difference across all datasets. In contrast, the two radiologists' specificities declined from around 90% in pedunculated lesions to approximately 75% (p = 0.010-0.050) in sessile lesions across the validation set, internal test set, and external test set 1. Therefore, in the head-to-head comparison of sessile lesions, the model demonstrated significantly higher specificities (91.9-96.0%) than the two radiologists (72.8-79.8%, p < 0.001-0.005) across the same datasets. The DL model assesses muscle invasion in BCa independently of lesion morphology and holds potential for clinical application, particularly in sessile lesions. Question Conventional MRI assessment of muscle invasion risk in pedunculated and sessile bladder cancers may be biased, but clear evidence and potential solutions are still lacking. Findings Morphology-associated diagnostic bias indeed exists, mainly as overstaging of sessile bladder cancer, while deep learning assessment of muscle invasion risk is morphology-independent. Clinical relevance The transformer-enhanced convolutional neural network developed in this study effectively reduces overestimation of muscle invasion risk in sessile bladder cancer and may serve as a complementary imaging tool for clinical evaluation.