Korean J Radiol Full Text 2026-Mar DOI: 10.3348/kjr.2025.1918

Response to Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".

Jeong Won Gi, Hwang Eui Jin, Jin Gong Yong

AI 導讀 technology AI 重要性 4/5

Flamingo-CXR 生成的正常X光報告獲94%專家青睞，但重症案例仍需人機協作。

Flamingo-CXR 模型在評估臨床發現的 CheXpert F1 指標達 0.519，超越舊模型 33%。
高達 22.8% 的案例僅 AI 出現重大臨床錯誤，暴露出視覺語言模型在空間與計數上的限制。
人機協作模式使 IND1 門診報告的專家偏好度從 51.2% 大幅躍升至 71.2%。

在27位專家的雙盲測試中，高達94%無異常胸部X光AI報告獲評優於或等同人類版本。Flamingo-CXR視覺語言模型評估顯示，儘管門診AI報告青睞度達77.7%，複雜病歷中仍有22.8%僅AI犯下重大錯誤，揭示了自動生成模型的真實效能邊界。

基礎模型 Flamingo-CXR 突破舊有 F1 指標 33%

目前的商業化醫療AI工具多半僅專注於特定病灶的分類與量化，但實際的醫療影像科需要將影像特徵、位置、嚴重程度與臨床背景綜合成流暢的文字建議。為了解決這個需求，研究團隊以基礎語言模型為底層架構進行微調，開發出能自動生成完整胸部X光報告的 Flamingo-CXR 系統。該模型使用了兩個大型去識別化影像資料集進行訓練：一個是來自美國急診與重症單位的 MIMIC-CXR 影像庫，另一個則是涵蓋印度門診與住院情境的 IND1 資料集。

在自動化評估指標上，Flamingo-CXR 展現了顯著的突破。針對同時生成「發現」和「印象」段落的任務，其 CheXpert F1（評估14種臨床發現準確度的指標） 分數達到 0.519，比先前的最佳模型大幅提升 33%；在 RadGraph F1（衡量實體與關係擷取準確度的指標） 上也獲得 0.205，同樣達成 33% 的增長。雖然該模型在傳統的自然語言生成指標（如 BLEU4、Rouge）上表現持平，這恰好印證了純粹的字詞重合度往往無法真實反映臨床準確性。

印度 IND1 資料集六大臨床病徵的診斷準確度

除了文字生成指標，團隊也量化了 Flamingo-CXR 在描述特定病理狀況時的精準度。針對 IND1 資料集中的六種臨床狀態（包含心室肥大、胸腔積液、肺部陰影、肺水腫、縱膈腔擴大與骨折），AI 模型在整體微平均 F1 分數上，已經與兩位被保留作為對照組的人類專家相當。對於訓練資料中出現頻率較高的狀況，Flamingo-CXR 與專家標註的 Kendall's tau（衡量排序相關性的係數） 甚至超越了單一獨立醫師的一致性。相反地，對於肺水腫或縱膈腔擴大這類發生率低於 0.2% 的罕見異常，AI 的準確度仍明顯低於人類專家。

美國急重症與印度門診影像的醫師偏好度差異

為了獲得更貼近真實世界的品質評估，團隊安排了 11位美國與16位印度 的認證醫師，進行不知來源的兩兩報告偏好盲測。結果表明，Flamingo-CXR 的表現高度取決於臨床情境與地域。在印度 IND1 的一般門診案例中，有 77.7% 的 AI 報告被半數以上醫師評為「優於或等同於」原始人類報告；而在正常無異常的影像中，這個比例更高達 94%。這顯示 AI 已經完全具備處理常規健康檢查報告的能力。

相對而言，美國 MIMIC-CXR 資料集由於來自急重症環境，報告結構更自由且包含更多複雜的臨床推論，使得 AI 報告獲得半數青睞的比例下降至 56.1%。醫師的地理位置與培訓背景也導致了嚴重的意見分歧，四位評估者對同一份報告達成完全一致看法的比例，在 IND1 為 44%，但在 MIMIC-CXR 卻僅有 27.4%。美國專家普遍比印度專家挑剔，這與美國報告偏向半結構化自由文本，而印度報告更偏向固定結構範本的區域性習慣密切相關。

22.8% 影像案例僅 AI 出現臨床重大錯誤

在深入探討報告錯誤的環節中，人類醫師與 AI 系統都暴露了各自的防線漏洞。在 IND1 案例中，AI 模型平均每份報告被揪出的錯誤數為 0.31，低於人類專家的 0.39；但在美國 MIMIC-CXR 的急重症案例中，AI 報告平均被挑出 0.49 個錯誤，遠高於人類的 0.27 個。更值得注意的是，在所有測試案例中，高達 24.8% 的影像雙方都出現了臨床重大錯誤。

若交叉比對這些重大錯誤的重疊性，發現有 22.8% 的案例僅有 AI 系統出現重大錯誤。這通常暴露出大型模型在空間推論與計數能力上的先天限制，例如將右側病灶寫成左側，或無法精準描述多發性肺部結節。然而，同樣有 14.0% 的案例僅有人類專家出錯，這意味著 AI 系統能補足人類在疲勞或疏忽時遺漏的細節。這些錯誤類型主要集中在不正確的發現、位置錯誤與嚴重程度誤判，兩者在錯誤分佈上的不重疊性，為人機互補提供了有力的證據。

人機協作使印度門診報告偏好度躍升至 71.2%

基於 AI 與專家在錯誤型態上的互補特性，研究團隊測試了一種漸進式的輔助工作流程：由 Flamingo-CXR 優先產出報告草稿，再交由人類進行字句替換或增補。當專家將這份「人機協作報告」與純人類撰寫的原始報告再次進行偏好對決時，報告的整體實用性與品質獲得了實質的躍升。

在 IND1 資料集中，人機協作報告被半數以上醫師認為優於或等同原始報告的比例，從純 AI 產出的 51.2% 大幅攀升至 71.2%；而在難度極高的 MIMIC-CXR 資料集中，偏好度也從 44.4% 提升至 53.6%。在許多實際情境中，醫師僅需微調一兩句描述，就能將原本劣於人類的 AI 草稿，扭轉為獲得全體專家一致推薦的最佳版本。

常規影像AI報告已達專家水準，但在複雜重症中，人機協作仍是確保準確度的關鍵防線。

Response to Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".

基礎模型 Flamingo-CXR 突破舊有 F1 指標 33%

印度 IND1 資料集六大臨床病徵的診斷準確度

美國急重症與印度門診影像的醫師偏好度差異

22.8% 影像案例僅 AI 出現臨床重大錯誤

人機協作使印度門診報告偏好度躍升至 71.2%

🔗 相關推薦

P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。

僅 25.3M 參數，SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。

僅需不到 300 參數，量子增強模型即達成大模型準確率，提升百倍效率。