Performance of a complete AI radiographic suite across 258,373 X-rays from 26 countries: A worldwide evaluation.

Cohen E, Ouertani M S, Beaumel P, Margetic P, Pedowski P, et al.

View Original ↗
AI 導讀 academic XR 重要性 4/5

橫跨26國分析258,373張影像,證實AI創傷偵測AUC高達98.3%。

  • 彙整26國共258,373張影像,證實AI具備極高泛化能力。
  • AZtrauma模組創傷偵測AUC達98.3%,敏感度達97.4%。
  • AZmeasure自動測量長度誤差僅1.1 mm,骨齡預測誤差僅半年。

橫跨全球五大洲、26 個國家,一套分析總數高達 258,373 張一般放射攝影影像的 AI 系統驗證結果出爐:在骨折與創傷偵測上交出了 98.3% 的 AUC 與 97.4% 的敏感度,而在自動化幾何測量上的平均絕對誤差更是低至 1.1 mm1.8°。這份大型國際多中心回溯性研究,全面檢視了完整放射 AI 套件在極度異質的臨床環境中的真實表現,證實了透過嚴格的雙重盲測與資深醫師仲裁機制,人工智慧已能在極端龐大的跨國數據庫中,展現出高度的診斷一致性與無死角的泛化能力。

一般攝影的兩大核心目標與 258,373 張跨國影像庫

在現代醫學影像領域中,一般放射攝影(Radiographic imaging)始終是第一線臨床用來評估解剖構造與病灶存在與否的首要影像工具。根據本研究團隊的定義,放射攝影的核心任務主要圍繞著兩大目標:其一是病灶的「偵測(Detection)」,快速篩檢出異常區域;其二則是病灶的「特徵定性(Characterization)」,提供量化或進一步的鑑別資訊。為了徹底驗證人工智慧在執行這兩大核心任務時的極限與穩定度,本研究展開了一場規模空前的國際級、多中心、回溯性評估計畫。研究團隊蒐集了時間跨度從 2022 年 1 月一路延續至 2025 年 4 月的龐大一般攝影數據。

放眼這批巨量影像,其來源涵蓋了全球 5 個大洲、共計 26 個國家的眾多不同層級醫療中心。所有被納入研究的影像,均全數交由 AZmed 團隊(位於法國巴黎)所開發的 Rayvolve AI 套件進行統一的自動化處理與分析。最終成功納入統計分析的放射攝影影像總數達到了驚人的 258,373 張。在放射 AI 的效能驗證文獻中,能夠涵蓋如此廣泛地理分佈與如此巨量樣本數的研究實屬罕見,其最主要的目的,就是要徹底考驗該 AI 套件在面對各國截然不同的 X 光射源設備、不同廠牌的數位偵測板、以及各異其趣的影像處理演算法時,是否還能維持一致的判讀水準。

雙重獨立判讀與資深專家介入的 Ground truth 建立

在任何醫學影像 AI 的效能評估中,如何定義「正確答案」往往是決定研究可信度的最關鍵因素。為了替這高達二十多萬張的跨國影像建立毫無爭議的黃金標準(Ground truth),研究團隊捨棄了單一判讀者可能帶來的系統性偏差,採用了極度嚴格的多重專家標註流程。針對資料庫中的每一筆 X 光檢查影像,研究團隊均安排了兩位判讀者(Readers)進行互不干擾的獨立標註與診斷。當這兩位第一線判讀者的判定結果完全吻合(Concordance)時,該共識結果便會被系統直接採納,並確立為該張影像的絕對黃金標準。

然而,放射攝影的影像往往伴隨著複雜的組織疊影,對於細微的皮質骨斷裂或早期的肺實質異常,判讀上難免會出現見解分歧。當這兩位判讀者出現意見不一致(Discordance)的狀況時,研究的防護機制便會立刻啟動,將該筆爭議影像往上遞交給第三位具備更深厚經驗的資深判讀者(Senior reader)。由這位資深專家進行最終的影像檢視,並做出最後的裁決(Final decision)。透過這種「雙重獨立初判加上資深專家最終仲裁」的嚴謹過濾網,研究團隊成功為 258,373 張的龐大多樣化影像庫,建構出了極具臨床公信力的基準線,確保後續 AI 輸出的每一次預測,都能與最嚴謹的人類專家共識進行對比。

AZtrauma 與 AZchest 在病灶偵測上的 AUC 與敏感度表現

深入檢視 AI 套件的病灶偵測(Detection)能力時,研究團隊特別將分析重點聚焦於兩個極具臨床急迫性的核心模組:專責於創傷與骨折偵測的 AZtrauma,以及負責胸腔各類異常篩檢的 AZchest。評估這些分類模型效能的核心量化指標包含了接收者操作特徵曲線下面積(AUC,數值越接近 100% 代表模型區分正常與異常的綜合能力越強)、敏感度(Sensitivity,即真陽性率,代表不漏診的能力)以及特異度(Specificity,即真陰性率,代表不誤判的能力)。根據龐大數據庫的運算結果顯示,AZtrauma 演算法在處理極度複雜的多國骨骼影像時,繳出了極具統治力的表現,其整體的 AUC 高達 98.3%,整體敏感度達到了 97.4%,而特異度也維持在 96.4% 的頂尖水準。

將目光轉向這組極度優異的創傷偵測數據,這意味著在面臨各種不同曝光條件與擺位角度的創傷 X 光時,AI 幾乎能精準抓出所有的骨折病灶,且極少發出假警報。另一方面,針對影像疊影最多、判讀挑戰性極高的胸部 X 光,AZchest 模組同樣展現了優異的病灶攔截能力,其整體的 AUC 達到 97.8%,並伴隨著高達 96.7% 的敏感度,特異度則落在 87.9%。雖然胸腔影像因解剖構造重疊導致特異度略低於骨骼模組,但在高達二十多萬張跨國樣本的嚴苛考驗下,此等高敏感度已充分確立了 AZchest 作為第一線胸腔異常篩檢防線的堅實地位。

AZtrauma 與 AZchest 病灶偵測效能對比表
模組名稱AUC敏感度 (Sensitivity)特異度 (Specificity)
AZtrauma (創傷與骨折)98.3%97.4%96.4%
AZchest (胸腔異常)97.8%96.7%87.9%

幾何測量 AZmeasure 與骨齡評估 AZboneage 的 MAE 數據分析

除了單純尋找病灶之外,放射攝影在許多專科領域(如骨科與兒科)中,往往需要提供精確的幾何量化數據以進行「特徵定性(Characterization)」。因此,研究團隊也將評估範圍延伸至負責自動化測量的 AZmeasure 模組,以及專責兒科骨齡預測的 AZboneage 模組。在這個評估環節中,衡量效能的統計指標轉換為平均絕對誤差(MAE,Mean Absolute Error,即 AI 預測值與人類黃金標準之間絕對誤差的平均值,數值越小代表 AI 越精準)以及相關係數(r)。在自動化影像測量方面,AZmeasure 模組展現出了與放射線專科醫師極度吻合的測量精準度。

若細看各項誤差的具體數字,統計數據明確指出,在針對骨骼結構的角度測量上,AI 系統與人類專家的 MAE 僅有極微小的 1.8°;而在長度或距離等線性幾何測量上,MAE 更是低至 1.1 mm。這種逼近毫米級與微小角度的超低誤差範圍,強而有力地證實了 AI 技術已具備高度取代傳統耗時人工拉線測量步驟的實力。此外,在兒科放射影像中極度仰賴判讀者經驗的骨齡判定上,AZboneage 模組的年齡預測結果與人類專家的黃金標準呈現了極度強烈的正相關,其年齡預測的 MAE 僅為 0.5 歲(即半年)。考量到傳統手動翻閱骨齡圖譜對比既耗費人力又容易產生觀察者間的誤差,AI 能夠將預測誤差穩定壓縮在 0.5 年以內,對於標準化與加速兒科放射攝影的報告流程具有無可取代的臨床實用價值。

AZmeasure 與 AZboneage 量化評估誤差表
模組名稱臨床測量標的平均絕對誤差 (MAE)
AZmeasure骨骼角度測量1.8°
AZmeasure長度與距離測量1.1 mm
AZboneage兒科骨齡預測0.5 歲 (半年)

次群組分析的穩定表現與 AI 套件廣泛採用的未來展望

將醫學影像 AI 軟體從單一醫療機構的實驗室推向真實世界的過程中,最大的技術瓶頸往往在於模型面對未曾見過的設備或不同種族病患時所產生的效能衰退。然而,本篇研究最關鍵且最令團隊振奮的發現之一,在於該 AI 套件在進行更細部的次群組(Subgroups)分析時,依然保持了令人驚訝的穩定性。無論是根據不同的地理區域、不同的影像擷取參數,或是其他各種細分變數進行切割,AI 系統的效能始終維持在高標,完全沒有出現任何顯著的效能下滑(no significant drop)。這種強悍的數據表現,證明了該完整的 AI 放射攝影套件在面對各種截然不同、充滿雜訊且高度異質的真實臨床環境中,均能展現出穩健且具備高度泛化能力(Generalizable)的優異性能。

在探討本研究的臨床意涵與未來方向時,研究團隊在結論中明確指出,這次針對 258,373 張跨國影像的成功驗證,將能強烈且實質地支持 AI 輔助系統在放射影像領域更為廣泛的臨床採用(Wider clinical adoption)。隨著當前全球醫療體系不斷致力於尋求優化工作流程效率(Workflow efficiency)並全面提升跨院所的診斷一致性(Diagnostic consistency),能夠同時兼顧高達 98.3% AUC 創傷偵測與 1.1 mm 幾何自動化測量的綜合型 AI 套件,勢必將成為支撐次世代放射線科日常運作不可或缺的核心基礎設施。

25萬張跨國影像實證,AI套件展現極高泛化能力,全面確保跨機種的診斷與測量一致性。

Abstract

Radiographic imaging is the primary imaging tool for assessing the presence of an abnormality with two main objectives: detection and characterization. This study reports a large-scale, international, multi-center, retrospective evaluation of a complete radiographic AI suite across various clinical settings. Radiographs from January 2022 to April 2025 were collected from multiple centers in 26 countries spanning 5 continents. All images were processed by the Rayvolve AI suite developed by AZmed (Paris, France). Two readers annotated each exam, and concordance between the readers was accepted as the ground truth. In cases of discordance, a third senior reader made the final decision. Key performance metrics included the area under the ROC curve (AUC), sensitivity, and specificity, for AZtrauma and AZchest; mean absolute error (MAE) and bias for AZmeasure; and MAE and r A total of 258,373 radiographs were analyzed. The AZtrauma algorithm achieved an AUC of 98.3 % with an overall sensitivity of 97.4 % and specificity of 96.4 %. The AUC of AZchest was 97.8 % associated with a sensitivity of 96.7 % and a specificity of 87.9 %. Automated measurements by AZmeasure showed excellent agreement with radiologists (MAE = 1.8° and 1.1 mm). AZboneage predictions correlated strongly with the ground truth (MAE = 0.5 years). Performance remained high across all subgroups, with no significant drop. The AI suite demonstrated robust, generalizable performance across diverse clinical environments. Successful validation of this system could support wider clinical adoption of AI in radiology, in line with ongoing global efforts to enhance workflow efficiency and diagnostic consistency.