Explainability-informed benchmarking of two deep learning models for organ-at-risk segmentation in MR-guided adaptive radiotherapy.

Sekkat H, Khallouqi A, Hammouga Y, Halimi A, El Mouden O, et al.

View Original ↗
AI 導讀 technology AI 重要性 3/5

研究量化了 U-Net 與 ResUNet 的模型注意力,兩者內部活化率分別達 71.4% 與 66.2%,證明 AI 具備高可解釋性。

  • U-Net 與 ResUNet 在腹部器官分割的 DSC 與 HD95 準確度指標上表現旗鼓相當。
  • 透過 Grad-CAM 量化,U-Net 的器官內部能量比達 71.4%,證明模型專注於正確特徵。
  • 不確定性分析顯示,兩種模型的極端誤差範圍均受控,滿足對高可靠度的測試要求。

在磁振造影引導的放射治療中,評估 AI 模型的標準正從單純的精準度轉向「可解釋性」。最新研究透過梯度加權類別活化映射技術量化神經網路的注意力,發現 U-NetResUNet 在器官內部活化率分別達到 71.4%66.2%,證明深度學習在腹部器官分割中具備臨床所需的透明度。

MR引導放射治療的胃腸道器官分割挑戰

執行 MRgRT(依即時影像調整放射劑量的技術)時,胃腸道風險器官的精確分割是不可或缺的關鍵步驟。這項工作通常需要耗費大量時間,且高度依賴操作人員的經驗與專業。人工描繪邊界往往容易產生觀察者間與觀察者內部的變異,進而影響後續放射劑量計算的穩定度。

深度學習技術的導入,為了解決這項耗時的挑戰帶來了具體方案。卷積神經網路在醫學影像分割領域已經展現出優異的精準度,能夠大幅縮短邊界描繪的時間。然而,要將這些演算法真正推向實際工作流程,僅有帳面上的精確度並不夠。使用者必須了解模型是基於哪些特徵做出判斷,這使得演算法的可解釋性與可靠度成為技術落地的核心門檻。

基準測試 U-Net 與 ResUNet 的三大指標

這項研究針對腹部風險器官的分割任務,挑選了兩種被廣泛應用的卷積神經網路架構進行基準測試:U-Net(常用於醫學影像分割的神經網路)以及 ResUNet(引入殘差連接的改良版架構)。研究團隊使用了一組去識別化的腹部 MRI 數據集,來訓練並評估這兩種模型在影像辨識上的表現。

為了確保評估的客觀性與泛化能力,測試過程採用了五折分層群組交叉驗證策略。在傳統的分割效能評估上,研究人員使用了三項具體指標。第一項是 Dice 相似係數(DSC),用於衡量預測區域與真實標籤的像素重疊程度。第二項是交集對聯集比(IoU),同樣用於評估空間重疊的精準度。

第三項則是第 95 百分位數豪斯多夫距離(HD95,測量預測與真實邊界極端距離的指標)。透過這三項傳統精準度指標的交叉比對,研究發現 U-NetResUNet 在不同器官的分割表現上旗鼓相當,兩者在這些數據維度上並未呈現統計學上的顯著差異。這意味著在純粹的準確度考驗中,兩種架構都能勝任腹部器官的輪廓描繪。

量化 Grad-CAM 活化映射的六大數值

單憑重疊率與距離誤差,無法證明神經網路是否真正看懂了影像,還是僅依賴背景雜訊進行猜測。為了解開演算法的決策黑盒子,研究團隊導入了 Grad-CAM(將模型決策轉為視覺熱圖的技術)。他們從兩個網路的最終卷積層中提取梯度與特徵,計算出這些熱圖,以觀察模型在進行分割時,注意力究竟集中在影像的哪個區域。

過往的可解釋性研究往往停留在定性觀察,依賴人類視覺去判斷熱圖分佈是否合理。這項研究則往前邁進一步,發展出能客觀評估熱圖表現的數值化定位指標。研究人員將 Grad-CAM 生成的活化熱圖與真實的器官遮罩進行嚴格比對,藉此計算出一系列全新的量化數據。

這些具體數據包含了器官內部能量比、邊界能量比、指向準確率、活化 Dice 係數、質心距離以及活化熵。透過將這些衍生出來的數值化指標跨越所有胃腸道器官進行彙總,並在五個驗證折疊中取平均值,研究團隊得以建立一套超越單純視覺感受的客觀解釋基準。

71.4% 與 66.2% 的器官內部活化率對比

在深度解析量化指標後,數據證實了這兩種深度學習模型在區域層級的注意力模式極為相似,且都專注於正確的解剖結構。U-Net 的器官內部活化率達到了 71.4 ± 8.6%,而 ResUNet 則為 66.2 ± 9.1%。這項數據顯示,模型大部分的運算能量確實集中於目標器官本身,而非被無關的組織或影像偽影干擾。

在處理結構邊緣特徵時,U-Net 的邊界能量比為 24.1 ± 4.9%ResUNet21.8 ± 5.2%。這兩個相近的數值反映出網路在定義器官輪廓時,分配了合理的注意力權重於邊界區域。這對於形狀複雜且易受周遭組織擠壓的胃腸道器官而言,是確保邊界平滑且精確的重要運算特徵。

兩種模型的指向準確率均超過了 70%。這意味著當神經網路標示出最高活化權重的區域時,有極高的機率直接命中目標器官的核心位置。綜合上述量化活化數據,證明了這兩種架構不僅能畫出正確的邊界,其背後的推論邏輯也符合預期,並未發生依賴錯誤特徵而得到正確結果的捷徑學習現象。

跨折疊變異分析驗證 AI 模型的穩定度

除了準確度與可解釋性,模型面對不同數據子集時的穩定度,也是能否進入實務流程的關鍵。研究團隊進一步執行了基於跨折疊變異與邊界誤差分散程度的不確定性分析。這項測試主要為了檢驗模型在面對未曾見過的影像資料時,其效能是否會發生劇烈震盪,或者產生難以預測的極端錯誤。

測試結果指出,U-NetResUNet 都展現了具備高度可比性的穩定度。更重要的是,它們在最壞情況下的表現都處於可控且有界的範圍內。這種有界的錯誤特性對於容錯率極低的放射治療至關重要,因為它能確保即使模型偶爾出現預測偏差,也不會產生偏離常理過多的分割結果。

整合了效能、不確定性以及可解釋性的量化指標,這項研究為腹部風險器官的深度學習分割模型提供了一套資訊充足的基準測試範本。實測數據清楚表明,在所評估的配置環境下,這兩種模型均展現出穩健且具備高解釋力的行為模式。

將可解釋性指標轉化為可量化的數值,能有效消除深度學習在放射治療流程中的黑盒子疑慮,為實務部署提供堅實的信任基礎。

Abstract

Segmentation of gastrointestinal (GI) organs-at-risk (OARs) is a critical yet time-consuming step in MR-guided adaptive radiotherapy (MRgRT), with manual delineation prone to inter- and intra-observer variability. While deep learning approaches have shown promise, their clinical adoption requires not only accuracy but also interpretability and reliability. This study benchmarks two widely used convolutional architectures, U-Net and Residual U-Net (ResUNet), for abdominal OAR segmentation, with an emphasis on explainability-oriented quantitative analysis. An anonymized abdominal MRI dataset was used to train and evaluate U-Net and ResUNet using a 5-fold stratified group cross-validation strategy. Segmentation performance was assessed using the Dice Similarity Coefficient (DSC), Intersection-over-Union (IoU), and the 95th percentile Hausdorff Distance (HD95). Explainability was investigated using Gradient-weighted Class Activation Mapping (Grad-CAM) computed from the final convolutional layer of each network. To enable objective analysis beyond qualitative visualization, Grad-CAM activation maps were quantified using numerical localization metrics relative to ground-truth organ masks, including in-organ energy ratio, boundary energy ratio, pointing accuracy, activation Dice coefficient, centroid distance and activation entropy. Grad-CAM metrics were aggregated across gastrointestinal organs and averaged over the five validation folds. Both architectures demonstrated comparable segmentation performance across organs, with no statistically significant differences across evaluated metrics. Grad-CAM analysis showed similar region-level attention patterns, with in-organ activation ratios of 71.4 ± 8.6% for U-Net and 66.2 ± 9.1% for ResUNet, boundary energy ratios of 24.1 ± 4.9% and 21.8 ± 5.2%, respectively, and pointing accuracies exceeding 70% for both models. Uncertainty analysis based on inter-fold variability and boundary error dispersion indicated comparable stability and bounded worst-case behavior. By integrating performance, uncertainty and explainability quantitative indicators, this study provides an informed benchmarking of two deep learning models for abdominal OAR segmentation. The results suggest that both U-Net and ResUNet exhibit stable and interpretable behavior under the evaluated configurations, supporting their potential use in MR-guided adaptive radiotherapy workflows where reliability and clinical trust are essential.