Developing an artificial intelligence tool for detecting fractures of child abuse: preliminary findings

View Original ↗
AI 導讀 academic AI 重要性 4/5

針對兒虐影像重新訓練的 AI 模型,能將極難察覺的嬰幼兒骨折偵測敏感度拉升 8%,有望暫代小兒專科醫師的雙讀片角色。

  • 商用外傷 AI 若未經微調,在辨識兒虐專屬的經典幹骺端骨折(CML)時,敏感度僅有慘淡的 28.6%。
  • 僅投餵 329 份專屬標註資料進行轉移學習,便讓整體骨折偵測敏感度提升 8% 至 52%,證實此技術路徑可行。
  • 肋骨影像因重疊與實質臟器雜訊干擾,微調後的敏感度仍僅 23%,依舊是當前 AI 發展的最大瓶頸。

原本獲 FDA 核准的骨折 AI,在辨識兒虐經典的幹骺端骨折時,初測敏感度竟暴跌至 28.6%。

初測敏感度僅 28.6% 的幹骺端骨折與雙讀片困境

針對疑似身體虐待(SPA)的兒童,骨骼攝影涵蓋全身數十張 X 光片,目的就是要揪出那些不尋常的舊傷與微小骨折。流行病學統計顯示,在英國約有 6.9% 的兒童受過身體虐待,而骨折是其中極為常見的表徵,出現率高達 55%。如果我們在初次就醫時漏診了這些警訊,讓無防護能力的孩童回到施暴者身邊,他們將面臨 15% 到 50% 的高機率再次受虐風險,甚至伴隨高達 10% 的致死率。要在急性期或骨折未移位的情況下,肉眼分辨出虐待專屬的經典幹骺端骨折(CML)或後肋骨端骨折,對非次專科醫師而言簡直是如同大海撈針般的挑戰。為防止漏診,英國皇家放射醫學會(RCR)強制建議所有疑似兒虐的骨骼攝影,必須在 24 小時之內交由兩位具備至少六個月小兒次專科訓練的醫師進行雙重覆核。然而,嚴峻的現實是全英國只有 52% 的放射科配置有小兒專科醫師,導致即便是三級兒童醫學中心,也僅有 75% 的案件能達標。在這種極端的人力缺口下,雖然市面上的深度學習模型已在兩歲以上兒童的附肢骨折中取得優異的 FDA 許可,但最容易受虐的族群其實是一歲以下的嬰兒,且病灶多位於非四肢區域。研究團隊因而瞄準這個核心需求,試圖探討能否透過轉移學習(transfer learning,拿已具備基礎骨骼辨識能力的 AI 模型針對兒虐影像再行微調),讓演算法成為補足基層放射科人力缺口的第一線輔助工具。

收錄 1740 名五歲以下病患與 Table 1 的資料集切分

從方法學的設計來看,本篇論文是一項單中心、實用取向的回溯性診斷準確率前導試驗。研究團隊將撈取資料的範圍設定在 2010 年 1 月 1 日至 2023 年 12 月 31 日之間,針對因疑似身體虐待而進行完整骨骼攝影的病患。為了確保訓練集能高度涵蓋受虐高風險群,納入條件嚴格限制於五歲以下兒童,並一口氣包含了初期攝影、追蹤攝影,甚至涵蓋了那些引發兒虐調查的原始急診創傷 X 光片。若影像品質遭遇嚴重的人為假影干擾、病患本身患有影響骨骼形態的遺傳性疾病(如成骨不全症),或是原本的放射科報告模稜兩可且連專家都無法定讞,這些資料便會被全數剔除。最終有 1740 位病患、總計 3769 份攝影研究進入資料庫,群體的年齡中位數僅 6 個月大,男性比例佔 59.5%,完美貼合了最易受虐的嬰幼兒輪廓。在模型訓練方面,團隊抽取了 1227 份陽性研究中的 329 份,交由醫學生使用邊界框(bounding boxes,利用矩形方框將影像中病灶精確包圍的標註方式)進行人工標記,共圈出 601 處骨折。所有人工標註最終皆由具備 20 年豐富資歷的專家逐一覆核把關,確保這套參考標準具備高度可靠性。包含這些陽性標註與等量陰性研究的資料,如 Table 1 所記載,最終以 8:2 的比例切分為訓練集與測試集,確保模型在測試時不會偷看到同一位病患的其他影像。

Table 1 模型訓練集的嚴格切分
資料集分配陽性研究數量陰性研究數量總計
訓練集 (Train)263263526
測試集 (Test)6666132
總計329329658

為避免 AI 記憶特定病患特徵,資料在「研究級別」被分為 8:2

Table 2 揭示重新訓練後敏感度提升至 52% 的初步成果

將焦點轉向模型微調前後的量化數據,我們能從 Table 2 中看到一條雖不完美但方向明確的進步軌跡。在尚未導入任何專屬兒虐影像前,原廠基準模型的接收者操作特徵曲線下面積(AUC)僅錄得 0.46(95% CI: 0.38-0.57)。在定義每份研究容許 0.5 個偽陽性的操作點下,整體敏感度僅為 44%(95% CI: 35-58%),特異度為 61%(95% CI: 52-71%),這意味著傳統骨折 AI 在面對兒虐影像時有超過一半會漏診。這樣的數據在一般急診外傷 AI 的標準來看顯然是不及格的,但也從側面印證了虐待性骨折與一般意外骨折在影像灰階特徵上的本質差異。然而,在加入這 329 份精心標註的陽性研究進行模型重新訓練後,這套深層演算法的整體辨識能力出現了實質的拉抬。同樣參照 Table 2 的對比數據,微調後的模型 AUC 成功上升至 0.55(95% CI: 0.48-0.66),整體敏感度進步了 8% 來到 52%(95% CI: 43-64%),特異度也微幅提升 6% 至 67%(95% CI: 58-78%)。搭配 Figure 2 繪製的 ROC 曲線與 Figure 3 的自由回應接收者操作特徵曲線(FROC,不僅考量判定有沒有病,還要求 AI 將病灶位置標示正確的評估指標),皆透過視覺化證明了微調後模型的優勢。考量到這僅是全數資料庫四分之一的初期訓練成果,能在少量專屬影像投餵下取得效能躍進,強烈暗示大量數據堆疊後絕對能讓 AI 逼近臨床可接受的及格線。

Table 2 基準模型 vs 重新訓練模型表現

在容許 0.5 個偽陽性的操作點下,整體敏感度與特異度皆獲提升

Table 3 的肋骨骨折次群組分析與低敏感度困境

若我們進一步審視最容易讓年輕主治醫師跌跤的特殊部位,肋骨骨折的次群組數據赤裸裸地揭示了當前影像 AI 面臨的最大挑戰。由於其他特定骨折的資料量尚不足以支撐獨立統計,研究團隊特別將具有高度兒虐特異性的肋骨抽離分析,並在 Table 3 中驚訝地發現基準模型的能力近乎瞎猜。其 AUC 落到了 0.29(95% CI: 0.19-0.42),敏感度更是探底到只剩 8%(95% CI: 0-24%)。即便經過重新訓練,雖然 AUC 倍增至 0.56(95% CI: 0.42-0.73),且敏感度拉升到 23%(95% CI: 0-49%),但若與整體模型 52% 的均值相比,肋骨依然是 AI 極度不擅長的盲區。對照 Figure 4 與 Figure 5 針對肋骨繪製的效能圖表,作者將這低於水平的診斷力歸咎於胸腹部 X 光片中過於龐雜的雜訊干擾。肋骨不僅會與自己前後重疊,在斜位影像中更容易與鎖骨或脊椎產生視覺交會,再加上實質臟器的高密度遮蔽,極易誘發神經網路過度敏感而標示出偽陽性。此外,在補充文件(Supplemental Table 3)的初期評估裡,28 個確診的經典幹骺端骨折(CML)中只有 8 個被 AI 成功抓出。這反映出這類在一般成人外傷中極為罕見、僅表現為皮質邊緣微小碎塊的特異性骨折,需要遠比一般橫斷性骨折更龐大的專屬訓練圖庫,才能讓演算法建構出有效的特徵萃取邏輯。

Table 3 肋骨骨折辨識效能對比

受限於雜訊干擾,肋骨骨折雖有進步,仍為整體模型的效能短板

單一醫學中心限制與輔助骨骼攝影的臨床建議

針對這份前導研究的成果,作者在討論環節直接點出了自身設計的幾項核心限制,這也是擁抱新科技時必須了解的臨床適用範圍。最難以克服的弱點在於資料集皆來自單一大型兒童醫院,影像參數與社經地位分布具備高度同質性,若將模型佈署到資源較少的地區型醫院,可能會因影像品質變異導致效能崩潰。其次,深度學習模型具備無法解釋的黑盒子特性,醫師無從得知 AI 是看見皮質骨皺褶還是被生長板正常變異欺騙,這在牽涉法律訴訟的兒虐鑑定案中將成為巨大弱點。本研究的黃金標準全憑人類專家意見,在缺乏電腦斷層掃描等更高階影像對照下,難以絕對保證訓練集中沒有隱藏的假陰性。對於放射科同仁而言,這篇研究傳遞了一個實務警告:目前市面上針對一般創傷訓練的商用骨折輔助軟體,絕對無法直接套用在疑似遭受身體虐待的嬰幼兒身上。當你審視一個六個月大嬰兒的全身 X 光片時,若系統自信滿滿地告訴你無異常,你反而應利用放大鏡更仔細檢視後肋骨端等容易發生微小撕脫性骨折的地帶。然而,本研究僅投入不到三百五十份標註資料便讓敏感度躍升 8%,隨著未來多中心資料庫的擴建與剩餘病例標註完成,這套工具極具發展潛力。它有望在人力吃緊的值班時段,暫代第二位小兒放射科醫師的雙讀片角色,幫助臨床團隊在第一時間將高風險受虐兒留置於安全網內。

你下次看到系統回報「一歲以下無骨折」時,還會直接把 normal 寫進 impression,而不去親自放大重看兩側後肋骨端嗎?

Abstract

Objectives Approximately 6.9% of children in the United Kingdom have suffered physical abuse. Fractures are a common sign and must not be overlooked due to high recurrence and mortality rates. We aimed to train and assess the diagnostic accuracy of a deep learning-based artificial intelligence model (BoneView) in detecting inflicted fractures. Materials and methods This pragmatic retrospective diagnostic accuracy pilot study focuses on children under 5 years old who underwent skeletal survey examinations for suspected physical abuse at a single tertiary centre between 1st January 2000 and 31st December 2023. Radiographs were extracted from the Picture Archiving and Communication System and divided to retrain and test the model. Radiology reports and retrospective review by one observer were used as the reference standard. Results Our total dataset included 1740 patients (mean age, 8.77 months ± 8.343 [standard deviation], 1026 males). The model’s baseline performance recorded an area under the receiver operating curve (AUC) of 0.46 (95% CI: 0.38, 0.57), with a sensitivity of 44% (95% CI: 35%, 58%) and a specificity of 61% (95% CI: 52%, 71%). For preliminary model training, 329 of 1227 positive studies were annotated, yielding a revised AUC of 0.55 (95% CI: 0.48, 0.66), sensitivity of 52% (95% CI: 43%, 64%), and specificity of 67% (95% CI: 58%, 78%). Conclusion Preliminary training of a novel AI tool for detecting inflicted fractures yielded improved results from baseline performance. This justifies the completion of annotation and further training of this AI tool to potentially achieve clinically acceptable performance. Key Points Question Double reporting of skeletal surveys is vital for identifying fractures caused by physical abuse, but some departments lack the expertise to double report these investigations. Findings Preliminary retraining of a commercially available deep learning algorithm using radiographic skeletal surveys led to improved inflicted fracture detection accuracy. Clinical relevance Training this deep learning algorithm using relevant imaging enhances its performance. An accurate tool for automated skeletal survey interpretation may improve outcomes for physically abused children by offering an additional diagnostic opinion. Graphical Abstract