Fracture detection using a low-dose computed tomography paediatric bone fracture phantom: A multi-reader study of radiographers.

Doyle E, Dipnall J F, Dimmock M R, Lee K L, Suleiman M E, et al.

View Original ↗
AI 導讀 academic CT 重要性 4/5

18位放射師以低劑量 CT 判讀小兒骨折假體,整體靈敏度僅60%,尚無法取代傳統骨骼攝影。

  • 低劑量 CT 骨折偵測整體靈敏度僅 60%,無人找出全部 7 處骨折。
  • 頭骨骨折偵測率最高達 88% 靈敏度,且陽性預測值高達 96-99%。
  • 判讀表現不受輻射劑量影響,但觀察者間存在極大的主觀變異性。

18 位放射師使用低劑量 CT 判讀小兒骨折假體影像,結果竟無人能找出全部 7 處已知骨折,且整體骨折偵測靈敏度僅停留在 60%。這項針對疑似虐兒檢查的評估顯示,儘管低劑量技術持續發展,但觀察者間的巨大變異性使得 CT 尚無法取代傳統骨骼攝影。

疑似虐兒影像檢查的低劑量 CT 替代方案探討

疑似虐兒 (suspected physical abuse, SPA) 的臨床影像評估,一直以來都是小兒放射領域中極具挑戰性的任務。對於一歲以下的嬰幼兒而言,常規的調查程序通常需要進行全面的放射線骨骼測量攝影系列 (radiographic skeletal survey series)。這套流程要求針對顱骨、脊椎、胸廓以及四肢長骨進行多個角度的高解析度 X 光攝影,過程中伴隨著繁複的初次檢查以及後續的追蹤攝影。在執行這些攝影時,為了獲取各個解剖部位的清晰影像,放射師必須頻繁更換嬰幼兒的擺位並進行多次曝光,這對焦躁不安的受檢兒童以及陪同人員而言,都是一項極大的考驗。

為了解決傳統骨骼攝影流程耗時且操作不便的痛點,低劑量電腦斷層掃描 (Low-dose computed tomography, CT) 被學界廣泛提出,期望能作為一種替代或輔助的檢查手段。特別是因為許多 SPA 案例在急診初期,就已經需要進行頭部 CT 來排除急性顱內損傷,若能順勢利用低劑量 CT 技術一次性完成全身骨骼結構的快速掃描,理論上將能大幅減少檢查的總時間,並避免反覆擺位帶來的不便。然而,技術的理論優勢必須經過嚴格的實證檢驗。早期的先導性研究在使用小兒骨折假體 (paediatric bone fracture phantom) 進行測試時,初步發現低劑量 CT 在細微骨折偵測上的表現並不穩定。為了釐清這個偵測不一致的現象究竟是受限於少量樣本的個案結果,還是低劑量技術本身的極限,本研究團隊擴大了觀察者隊列,進一步評估低劑量 CT 在兒童骨折偵測上的實際效能與可靠性。

18 位放射師與小兒骨折假體的多觀察者研究設計

為了客觀且精準地衡量影像判讀的準確率,本研究採取了多觀察者 (multi-reader) 的試驗設計,共邀請了 18 位具備相關經驗的放射師 (radiographers) 參與影像審閱。在樣本的選擇上,為了確保基準真相 (ground truth) 的絕對可控性與可驗證性,研究並未直接採用真實病患的臨床影像,而是採用了市面上標準化的商用小兒骨折假體。這類假體在設計時,其內部已經預先設置了確切位置與特定數量的模擬骨折病灶。藉由這種已知骨折分佈的假體模型,研究人員可以非常準確地核對每一位觀察者的判讀結果,避免了真實臨床影像中可能存在的模稜兩可或未確診的干擾因素。

在具體的操作流程中,研究團隊準備了 9 組基於該假體所獲取的低劑量 CT 影像數據集。參與研究的 18 位放射師被要求在專門的影像觀察軟體 (specialist image viewing software) 上進行仔細的審閱。透過軟體的切面滾動與影像重組功能,他們必須具體標記出他們所認定出現骨折的解剖位置。隨後,研究者會將這些標記點與假體內部真實存在的 7 處已知骨折進行精細的對照比對。為了全面量化判讀的效能,統計分析涵蓋了靈敏度 (Sensitivity)、特異度 (Specificity)、陽性預測值 (Positive predictive value, PPV) 以及陰性預測值 (Negative predictive value, NPV)。此外,為了強化統計推論的穩健性,數據處理過程還導入了自助抽樣法 (bootstrapping,一種透過反覆抽樣來推估母體分佈的統計技術),藉此計算出各項指標的 95% 信賴區間 (Confidence Interval, CI),從而更嚴謹地預測放射師群體在面對這類低劑量影像時的真實表現。

頭骨與脛腓骨骨折偵測的 Sensitivity 與 PPV 數據拆解

將目光轉向具體的偵測數據,判讀結果揭示了低劑量 CT 在微小骨折呈現上的侷限性。在檢視這 9 組數據集後,完全沒有任何一位放射師能夠成功標記出假體中全部的 7 處骨折。在所有參與者當中,判讀的最佳成績僅是由其中 4 位放射師成功找出了 5 處骨折。透過自助抽樣法的統計預測模型,研究進一步歸納出在低劑量條件下,最容易被視覺辨識出來的骨折解剖部位。其中,頭骨 (skull) 骨折的被辨識率位居首位,其整體靈敏度達到了 88%,特異度為 67%。在預測價值方面,頭骨骨折的陽性預測值 (PPV) 95% 信賴區間高達 96% 到 99%,但相對地,陰性預測值 (NPV) 僅落在 15% 到 44% 的低區間。這代表當放射師在低劑量 CT 影像上明確判定頭骨存在骨折時,其正確率極高,但若判定為無骨折,實際上仍有相當高的漏診機率。

除了頭骨之外,另一個在低劑量掃描中較常被成功偵測出來的部位是下肢的脛骨與腓骨 (tibia and fibula)。數據顯示,針對脛腓骨骨折的偵測靈敏度為 70%,特異度則達到 83%。在預測價值的部分,脛腓骨的 PPV 95% 信賴區間同樣維持在 93% 到 99% 的高水準表現,而 NPV 則落在 16% 到 45% 之間。從這兩組主要解剖部位的數據可以明顯看出一個共通趨勢:低劑量 CT 影像在確認某些具有明顯結構破壞的特定部位骨折時,具有非常高的陽性預測能力。然而,陰性預測值的普遍低落,反映出低劑量影像受限於影像雜訊與對比度的影響,要能自信且全面地排除所有細微或無明顯錯位的骨折,依然存在著實質的技術困難。

頭骨與脛腓骨骨折在低劑量 CT 的偵測預測值
解剖部位靈敏度 (Sensitivity)特異度 (Specificity)陽性預測值 (PPV 95% CI)陰性預測值 (NPV)
頭骨 (Skull)88%67%96% - 99%15% - 44%
脛腓骨 (Tibia and fibula)70%83%93% - 99%16% - 45%

整體靈敏度 60% 背後的觀察者間巨大變異性

若將假體上所有解剖部位的判讀結果進行合併計算,這 18 位放射師針對此小兒骨折假體的整體骨折偵測靈敏度僅為 60%。這個數字距離臨床上對於疑似虐兒案件所要求的嚴苛診斷標準,顯然還有一大段難以跨越的落差。在 SPA 的臨床情境中,任何一處細微骨折的漏診都可能對兒童的安全評估造成重大影響,因此 60% 的靈敏度並不足以支撐其成為首選的篩檢工具。更值得深思的是,研究團隊在深入分析統計數據時發現,導致整體靈敏度偏低的關鍵因素,並非完全歸咎於儀器端的輻射劑量設定。結果明確指出,骨折的偵測率在不同的低劑量掃描條件下並沒有受到顯著的干擾,這意味著整體表現是不受輻射劑量影響的 (unaffected by radiation dose)。

相反地,資料分析呈現出極大的觀察者間變異性 (large variability between observers)。面對同一組以低劑量 CT 掃描獲得的假體影像,不同的放射師在進行判讀與標記時,給出了截然不同的結果。這種高度的判讀不一致性暗示了,在低對比度或是雜訊較高的低劑量影像環境下,人為因素成為了主導結果的最大變數。因為在劑量降低的情況下,光子數量減少不可避免地會帶來較高的影像雜訊,這些雜訊在視覺上可能會干擾骨皮質邊緣的連續性,進而影響判讀。判讀者主觀的視覺辨識過程、對於影像紋理與不規則輪廓的敏感度,甚至是每個人在使用影像軟體時調整窗寬窗位 (Window Width/Window Level) 或是滾動切面厚度的習慣差異,都可能大幅度地左右最終尋找骨折的結果。只要這種巨大的觀察者間變異性無法被標準化流程有效控制,低劑量 CT 技術在目前的階段就難以作為一項穩定可靠的替代篩檢工具。

維持現行放射線骨骼測量常規的必要性與未來研究方向

基於上述偏低的靈敏度與高變異性數據表現,作者在結論中坦承了這項研究的相關限制與適用邊界。首先,由於這是一個完全基於假體 (phantom-based) 進行的測試,假體本身的設計材質與真實人體骨骼及周圍軟組織在 X 光衰減特性上的細微差異,也就是所謂的假體效應 (phantom-based effect),可能對判讀結果造成了一定程度的干擾。真實人體具有複雜的肌肉與脂肪組織包覆,其產生的散射與假影可能與標準化的假體有所不同。此外,參與研究的放射師在兒科影像方面的臨床經驗多寡,以及他們是否受過專門針對低劑量 CT 兒童骨折影像的判讀訓練,也都是極可能影響最終 60% 整體靈敏度的重要變數。

因此,研究團隊明確指出,未來需要後續更多、規模更大的研究來隔離並釐清這些干擾因子。唯有深入探討經驗值、骨折形態差異或是假體本身材質對影像表現的具體影響,才能真正評估低劑量 CT 的潛力。在這些不確定因素被徹底解決,且低劑量 CT 的整體靈敏度與觀察者間一致性獲得大幅度的提升之前,目前的科學證據並不足以支持改變現行的臨床常規做法。對於需要調查兒童疑似實體虐待 (SPA) 的臨床情境,傳統的放射線骨骼測量攝影系列 (radiographic skeletal survey series) 雖然在操作流程上較為耗時且對嬰幼兒較不友善,但其憑藉著高解析度與成熟的判讀準則,目前在各部位細微骨折的偵測上,仍然是無法被低劑量 CT 直接取代的標準影像調查流程。

低劑量 CT 在小兒假體上的整體骨折偵測靈敏度僅 60% 且觀察者間變異大,目前尚無證據支持其取代傳統放射線骨骼測量攝影。

Abstract

Low-dose computed tomography (CT) has been proposed as an alternative approach to investigate suspected physical abuse (SPA). This is an important consideration for children under 1 year of age due to the inconvenience of initial and follow-up imaging in addition to CT of the head. Results from a pilot study using a bone fracture paediatric phantom suggested that fracture detection was inconsistent using low-dose CT. The aim of this study was to evaluate whether those findings were consistent for a larger cohort of observers. Nine CT datasets were reviewed by 18 radiographers who marked the fractures using specialist image viewing software. Fractures detected were compared to the known fractures in the commercial paediatric bone fracture phantom. Sensitivity, specificity, positive and negative predictive values (PPV, NPV), with bootstrapped 95 % confidence interval (CI), were calculated. None of the observers detected all seven fractures, with a maximum of five identified by four observers. Bootstrapping predicted that the most commonly detected fractures were of the skull with a sensitivity of 88 %, specificity of 67 %, 95 % CI for PPV ranging from 96 to 99 % and NPV of 15-44 % and the tibia and fibula with a sensitivity of 70 %, specificity of 83 %, 95 % CI for PPV ranging from 93 to 99 % and NPV of 16-45 %. Radiographers had overall sensitivity of 60 % for fracture detection on this phantom, unaffected by radiation dose, but with large variability between observers. Therefore, more research is required to identify the factors that may have influenced this, such as experience, fracture or phantom-based effect. There is currently no evidence to support a change in current clinical practice which is the radiographic skeletal survey series to investigate SPA in children.