Response to Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".
Flamingo-CXR 生成的正常X光報告獲94%專家青睞,但重症案例仍需人機協作。
- Flamingo-CXR 模型在評估臨床發現的 CheXpert F1 指標達 0.519,超越舊模型 33%。
- 高達 22.8% 的案例僅 AI 出現重大臨床錯誤,暴露出視覺語言模型在空間與計數上的限制。
- 人機協作模式使 IND1 門診報告的專家偏好度從 51.2% 大幅躍升至 71.2%。
在27位專家的雙盲測試中,高達94%無異常胸部X光AI報告獲評優於或等同人類版本。Flamingo-CXR視覺語言模型評估顯示,儘管門診AI報告青睞度達77.7%,複雜病歷中仍有22.8%僅AI犯下重大錯誤,揭示了自動生成模型的真實效能邊界。
基礎模型 Flamingo-CXR 突破舊有 F1 指標 33%
目前的商業化醫療AI工具多半僅專注於特定病灶的分類與量化,但實際的醫療影像科需要將影像特徵、位置、嚴重程度與臨床背景綜合成流暢的文字建議。為了解決這個需求,研究團隊以基礎語言模型為底層架構進行微調,開發出能自動生成完整胸部X光報告的 Flamingo-CXR 系統。該模型使用了兩個大型去識別化影像資料集進行訓練:一個是來自美國急診與重症單位的 MIMIC-CXR 影像庫,另一個則是涵蓋印度門診與住院情境的 IND1 資料集。
在自動化評估指標上,Flamingo-CXR 展現了顯著的突破。針對同時生成「發現」和「印象」段落的任務,其 CheXpert F1(評估14種臨床發現準確度的指標) 分數達到 0.519,比先前的最佳模型大幅提升 33%;在 RadGraph F1(衡量實體與關係擷取準確度的指標) 上也獲得 0.205,同樣達成 33% 的增長。雖然該模型在傳統的自然語言生成指標(如 BLEU4、Rouge)上表現持平,這恰好印證了純粹的字詞重合度往往無法真實反映臨床準確性。
印度 IND1 資料集六大臨床病徵的診斷準確度
除了文字生成指標,團隊也量化了 Flamingo-CXR 在描述特定病理狀況時的精準度。針對 IND1 資料集中的六種臨床狀態(包含心室肥大、胸腔積液、肺部陰影、肺水腫、縱膈腔擴大與骨折),AI 模型在整體微平均 F1 分數上,已經與兩位被保留作為對照組的人類專家相當。對於訓練資料中出現頻率較高的狀況,Flamingo-CXR 與專家標註的 Kendall's tau(衡量排序相關性的係數) 甚至超越了單一獨立醫師的一致性。相反地,對於肺水腫或縱膈腔擴大這類發生率低於 0.2% 的罕見異常,AI 的準確度仍明顯低於人類專家。
美國急重症與印度門診影像的醫師偏好度差異
為了獲得更貼近真實世界的品質評估,團隊安排了 11位美國與16位印度 的認證醫師,進行不知來源的兩兩報告偏好盲測。結果表明,Flamingo-CXR 的表現高度取決於臨床情境與地域。在印度 IND1 的一般門診案例中,有 77.7% 的 AI 報告被半數以上醫師評為「優於或等同於」原始人類報告;而在正常無異常的影像中,這個比例更高達 94%。這顯示 AI 已經完全具備處理常規健康檢查報告的能力。
相對而言,美國 MIMIC-CXR 資料集由於來自急重症環境,報告結構更自由且包含更多複雜的臨床推論,使得 AI 報告獲得半數青睞的比例下降至 56.1%。醫師的地理位置與培訓背景也導致了嚴重的意見分歧,四位評估者對同一份報告達成完全一致看法的比例,在 IND1 為 44%,但在 MIMIC-CXR 卻僅有 27.4%。美國專家普遍比印度專家挑剔,這與美國報告偏向半結構化自由文本,而印度報告更偏向固定結構範本的區域性習慣密切相關。
22.8% 影像案例僅 AI 出現臨床重大錯誤
在深入探討報告錯誤的環節中,人類醫師與 AI 系統都暴露了各自的防線漏洞。在 IND1 案例中,AI 模型平均每份報告被揪出的錯誤數為 0.31,低於人類專家的 0.39;但在美國 MIMIC-CXR 的急重症案例中,AI 報告平均被挑出 0.49 個錯誤,遠高於人類的 0.27 個。更值得注意的是,在所有測試案例中,高達 24.8% 的影像雙方都出現了臨床重大錯誤。
若交叉比對這些重大錯誤的重疊性,發現有 22.8% 的案例僅有 AI 系統出現重大錯誤。這通常暴露出大型模型在空間推論與計數能力上的先天限制,例如將右側病灶寫成左側,或無法精準描述多發性肺部結節。然而,同樣有 14.0% 的案例僅有人類專家出錯,這意味著 AI 系統能補足人類在疲勞或疏忽時遺漏的細節。這些錯誤類型主要集中在不正確的發現、位置錯誤與嚴重程度誤判,兩者在錯誤分佈上的不重疊性,為人機互補提供了有力的證據。
人機協作使印度門診報告偏好度躍升至 71.2%
基於 AI 與專家在錯誤型態上的互補特性,研究團隊測試了一種漸進式的輔助工作流程:由 Flamingo-CXR 優先產出報告草稿,再交由人類進行字句替換或增補。當專家將這份「人機協作報告」與純人類撰寫的原始報告再次進行偏好對決時,報告的整體實用性與品質獲得了實質的躍升。
在 IND1 資料集中,人機協作報告被半數以上醫師認為優於或等同原始報告的比例,從純 AI 產出的 51.2% 大幅攀升至 71.2%;而在難度極高的 MIMIC-CXR 資料集中,偏好度也從 44.4% 提升至 53.6%。在許多實際情境中,醫師僅需微調一兩句描述,就能將原本劣於人類的 AI 草稿,扭轉為獲得全體專家一致推薦的最佳版本。
常規影像AI報告已達專家水準,但在複雜重症中,人機協作仍是確保準確度的關鍵防線。