Inter-observer variation in radiation oncology contouring: A scoping review of contour comparison methods, and reporting of impact on the organ at risk plan dose variations.

Chamunyonga C, Mengersen K, Hargrave C

View Original ↗
AI 導讀 academic dose 重要性 4/5

25 篇文獻顯示,評估勾畫變異主要依賴 DICE 指標與 DVH 量化 OAR 劑量。

  • 25篇文獻中高達9篇專注於評估自動分割工具的輪廓準確度。
  • DICE與HDs是最常被用於檢視勾畫體積與邊界誤差的幾何指標。
  • 未來研究需強制報告影響DVH與NTCP運算的治療計畫優化參數。

25 篇探討放射腫瘤勾畫變異的文獻回顧中,高達 9 篇研究將焦點轉向自動分割工具的準確度,而評估勾畫差異時,Dice 相似係數與豪斯多夫距離佔據了主導地位。當勾畫誤差轉化為劑量不確定性時,多數研究依賴劑量體積直方圖的平均劑量來評估危及器官(OAR)受量,並運用皮爾森或斯皮爾曼相關係數,試圖找出幾何指標與劑量變異之間的線性關係。

涵蓋 25 篇文獻的勾畫變異與自動分割趨勢

放射治療計畫的精準度高度仰賴標靶與危及器官(OAR)輪廓的準確性,然而不同觀察者間的勾畫變異(Inter-observer variation)往往會直接導致劑量分佈的不確定性。為了系統性地檢視這些勾畫誤差如何被評估,以及其對 OAR 計畫劑量變異的實際影響,本篇範圍性文獻回顧(Scoping review)針對現有的評估方法進行了全面性的盤點。研究團隊最終篩選並納入了 25 篇全文參考文獻,其中包含 22 篇原始研究以及 3 篇回顧性文章,藉此建立對當前勾畫比較方法的廣泛理解。

在放射腫瘤學中,從早期的順形放射治療到現代的強度調控放射治療(IMRT)與體積調控弧形放射治療(VMAT),治療計畫的等劑量曲線包覆度變得極度鋒利。這意味著,標靶或 OAR 邊界哪怕只有幾毫米的勾畫偏差,都可能導致劑量計算結果出現懸殊的變化。因此,釐清文獻中如何定義並量化這些輪廓誤差,是提升整體放射治療品質的基礎工程。

從文獻的分佈趨勢來看,隨著影像處理技術的演進,評估焦點已逐漸產生轉移。在納入的文獻中,有多達 9 篇研究專注於評估自動分割(Auto-segmentation)工具的效能與準確度。這顯示出在放射治療領域,減少人為勾畫變異的技術解方正受到高度關注,而如何客觀且量化地衡量這些自動化工具的產出與標準輪廓之間的差異,成為了這類研究的核心命題。

透過回顧這 25 篇文獻,作者指出在探討勾畫不準確性時,必須具備一套標準化的衡量工具,才能有效量化標靶或 OAR 邊界的偏移程度。無論是傳統的手動勾畫差異,還是新興的自動分割工具評估,文獻中普遍面臨的問題在於如何將視覺上的輪廓差異,轉化為具有臨床意義的數據。因此,幾何指標的應用成為了串聯勾畫變異與後續劑量評估的關鍵橋樑。

DICE 與 HDs 在輪廓比對的核心地位

在評估勾畫準確度時,幾何指標(GIs)提供了客觀的數學衡量標準。根據這份範圍性回顧的統計,DICE(Dice 相似係數,評估兩體積重疊程度的指標)HDs(豪斯多夫距離,測量兩輪廓邊界最大距離的指標)是文獻中最常被使用的兩種幾何比對工具。這兩個指標分別從不同的幾何維度切入,共同建構了評估輪廓相似性的堅實基礎。

若細看 DICE 的應用邏輯,其主要優勢在於能夠直觀地反映整體體積的重合比例。當兩位觀察者或演算法與醫師的勾畫完全一致時,DICE 值會呈現完美的 1.0;反之若毫無交集則為 0。然而,僅依賴體積重疊指標有時會掩蓋局部的嚴重偏差,這也是為何多數研究會同時納入 HDs 進行交叉評估。HDs 著重於計算兩個輪廓表面之間的最遠距離,能夠敏銳地捕捉到即使體積重疊度高、但局部邊界發生嚴重突出的極端狀況。

從文獻回顧的結果可以發現,這兩種指標的組合已成為評估 OAR 與標靶勾畫變異的業界默契。研究人員透過 DICE 確保整體器官體積的一致性,再利用 HDs 檢視邊界的最大誤差範圍。這種雙重幾何評估模式,特別在探討自動分割工具(n = 9)的效能時顯得尤為重要,因為演算法產生的輪廓往往在整體重疊度上表現優異,但可能在特定切面上出現不符合解剖學邏輯的邊界偏移。

值得注意的是,儘管 DICE 與 HDs 廣泛應用於這 25 篇文獻中,但單純的幾何數據並無法直接等同於臨床上的劑量危害。一個高 HDs 值的邊界偏移,如果發生在遠離高劑量區的位置,其對 OAR 實際受量的影響可能微乎其微。因此,如何將這些幾何指標進一步對接到治療計畫中的劑量變異,成為了這些研究必須跨越的下一個門檻。

DVH 與 NTCP 的 OAR 劑量變異評估

當幾何輪廓的變異進入治療計畫系統後,最終的檢驗標準便落在器官實際承受的輻射劑量上。本篇回顧指出,多數研究主要依賴 DVH(劑量體積直方圖,評估三維劑量分佈的工具) 相關的物理參數來評估 OAR 的劑量變異。在眾多 DVH 參數中,OAR 的平均劑量(Mean OAR dose)是最常被用來量化勾畫誤差影響的指標。

在這些研究中,DVH 的平均劑量之所以受到高度重視,是因為多數腹部與胸部的 OAR(如肝臟、肺臟)屬於平行器官。對於平行器官而言,整體的平均受量往往比單一極高劑量熱區更能準確預測器官功能衰退的機率。相對地,若是面對如脊髓等序列器官,文獻則會轉向關注最大劑量等其他 DVH 衍生參數,以確保任何微小的勾畫外擴都不會導致輻射劑量突破神經損傷的上限。

然而,純粹的物理劑量有時無法完整反映放射生物學的複雜效應。因此,部分納入回顧的研究選擇採用更進階的放射生物學指標來進行評估。其中包含了 NTCPs(正常組織併發症機率,評估放療毒性的生物指標) 以及 EUDs(等效均勻劑量,將非均勻劑量轉換為生物等效劑量的參數)。這些指標試圖將 DVH 曲線上的劑量分佈差異,轉換為預測患者發生實際副作用的臨床風險。

把目光轉向這些生物學參數的應用,NTCPs 能夠整合器官的輻射耐受度模型,將勾畫變異導致的微小高劑量熱區放大檢視,評估其是否跨越了引發組織壞死的閾值。而 EUDs 則提供了一種將複雜的不均勻劑量分佈,簡化為單一等效均勻劑量的運算方式。文獻回顧的結果顯示,從 DVH 物理參數延伸至 NTCPs 與 EUDs 生物參數,是深入理解觀察者間勾畫變異臨床衝擊的重要路徑。

放射腫瘤勾畫變異評估指標與統計方法總覽
類別指標/方法縮寫評估重點與應用方向
幾何指標 (GIs)DICE評估觀察者或自動分割工具與標準輪廓的體積重疊比例 (0-1.0)
幾何指標 (GIs)HDs測量兩輪廓表面邊界的最大距離以捕捉局部極端邊界偏差
劑量參數DVH (Mean OAR dose)以物理平均劑量量化勾畫變異對平行危及器官的影響
放射生物指標NTCPs & EUDs將物理劑量不均勻性轉換為正常組織併發症的臨床風險預測
統計方法Spearman / Pearson檢驗幾何變異數值與計畫劑量偏差之間的線性或單調相關性

GI 指標與劑量變異的 Pearson 相關性

要證明幾何輪廓的誤差會實質影響劑量分佈,必須仰賴嚴謹的統計分析來建立兩者之間的關聯。在這 25 篇文獻中,研究人員最常使用的統計工具包含了斯皮爾曼等級相關係數(Spearman's correlation)、皮爾森相關係數(Pearson's correlation)以及線性迴歸分析(Linear regression)。這些方法被廣泛應用於檢驗幾何指標(GI)數值與計畫劑量變異之間的數學關係。

在具體的分析操作中,皮爾森相關係數常被用來評估 DICE 或 HDs 與 OAR 平均劑量變化之間是否呈現顯著的線性相關;而斯皮爾曼相關係數則適用於處理不呈常態分佈或具有非線性單調關係的劑量數據。透過這些統計檢定,研究者得以量化當 DICE 值下降特定百分比,或是 HDs 增加特定空間距離時,相對應的 DVH 參數會產生多大程度的波動。

線性迴歸模型在此類研究中扮演了預測與解釋的雙重角色。部分研究透過建立線性迴歸方程式,試圖找出幾何變異導致劑量偏差的臨界點。這意味著,統計模型能協助判斷當 HDs 超過特定毫米數時,其 NTCPs 是否會出現顯著的統計學攀升,進而作為未來評估自動分割工具或臨床品質管制的量化標準。

然而,統計相關性並不代表絕對的臨床因果關係。回顧文獻指出,幾何指標與劑量變異之間的相關程度,往往受到 OAR 與標靶相對位置的強烈干擾。即便統計結果顯示存在顯著相關,在不同解剖部位與不同射束投射角度的計畫中,相同的幾何誤差可能帶來截然不同的劑量後果。這也凸顯了單靠統計數字來評估勾畫變異是不夠的,必須結合具體的治療計畫參數才能還原全貌。

影響 OAR 劑量計算的治療計畫參數標準化

在本篇範圍性回顧的最終探討中,作者強烈指出當前文獻在研究設計與數據報告上存在的限制與適用邊界。雖然有 25 篇文獻詳細探討了幾何與劑量的關聯,但不同研究之間的結果往往難以直接進行橫向比較。其根本原因在於,許多研究並未充分且透明地報告其治療計畫參數(Treatment planning parameters),而這些參數正是決定劑量優化與計算結果的關鍵變數。

對於未來的觀察者間變異研究,文章提出了明確的指導原則:必須徹底報告可能影響劑量優化、計算與劑量輸出的各項計畫參數。這包含了射束配置的幾何角度、劑量計算演算法、劑量網格大小,以及在優化過程中賦予 OAR 的具體權重與限制條件。舉例而言,如果兩項研究分別採用不同毫米數的劑量網格進行運算,即便兩者的 DICE 幾何指標完全相同,其最終產出的 DVH 平均劑量也會因體積採樣解析度的差異而產生顯著分歧。

這篇文章強調了在報告劑量變異時建立標準化規範的迫切需求。當高達 9 篇研究致力於驗證自動分割工具的優越性時,如果沒有統一的劑量評估基準與詳盡的參數報告,這些新技術的臨床影響評估將會失真。標準化的報告格式,不僅能提升研究的重現性,更能確保幾何指標與劑量數據的比較建立在公平的基礎上。

總結來說,這份回顧為研究人員與放射技術端提供了一個清晰的視角,洞悉目前在評估勾畫變異時,如何運用 DICE、HDs 等幾何指標以及 DVH、NTCPs 等劑量與生物統計方法。未來針對 OAR 劑量變異的探討,不僅需關注輪廓畫得準不準,更需確保從幾何評估到計畫運算的每一個技術參數都被精確地記錄與檢視。

評估勾畫變異需結合 DICE 與 HDs 幾何指標,並透過詳實報告治療計畫參數,才能準確驗證 OAR 劑量變化與自動分割工具的臨床價值。

Abstract

Inaccuracies in target and organs at risk (OAR) contouring can cause dosimetric uncertainties. This scoping review assessed the use of geometric indices (GIs) in evaluating contouring accuracy and reporting OAR dose variations. Twenty-five (25) full-text articles were included in this review, comprising 22 primary studies and 3 review papers. Most studies focused on evaluating auto-segmentation tools (n = 9). The Dice similarity coefficient (DICE) and Hausdorff distances (HDs) were the most commonly used GIs for contour comparisons. OAR dose variations were primarily assessed using dose-volume histogram metrics, particularly the mean OAR dose, with some studies also employing radiobiological metrics such as normal tissue complication probabilities (NTCPs) and equivalent uniform doses (EUDs). Statistical methods, such as Spearman's and Pearson's correlations and linear regression, were frequently used to examine relationships between GI values and dose variation. Future inter-observer variation studies should include thorough reporting of treatment planning parameters that might affect optimisation, calculation, and dose reporting to enable comparison of results across studies. The article highlights the need for standardisation in reporting dose variations. It also provides researchers and clinicians with insight into current practices in the use of geometric indices and statistical methods for evaluating contouring variation.