Korean J Radiol Full Text 2026-Mar DOI: 10.3348/kjr.2025.1825

Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".

Zhou Yingchun, Liu Yan, Cai Ming

AI 導讀 technology AI 重要性 4/5

27 位醫師盲測發現，視覺模型在常規 X 光報告高達 94% 媲美人類專家。

Flamingo-CXR 模型在臨床指標達成 33% 顯著提升。
24.8% 門診案例顯示人類與 AI 皆會犯下獨特錯漏。
醫師與 AI 協作將門診報告偏好度從 51.2% 升至 71.2%。

透過徵召 27 位來自美國與印度的認證放射科醫師，一項針對視覺語言模型 Flamingo-CXR 的最新研究指出，在缺乏異常發現的常規胸部 X 光報告中，高達 94% 的 AI 生成內容被評估為等同或優於人類醫師的撰寫版本。然而，研究同時揭露人類與 AI 皆會犯下臨床顯著錯誤，在超過兩成的門診案例中，僅有 AI 模型生成了包含錯誤的報告。這項橫跨兩國資料庫的雙盲測試，首次量化了 AI 作為獨立生成器與輔助工具在真實醫療環境中的具體表現。

儘管醫療人工智慧在過去十年取得顯著進展，多數獲批的商業應用仍侷限於特定病理的狹隘分類任務。真正的臨床實務需要將影像發現轉化為帶有適當語氣、結合廣泛背景並提供實用建議的自然語言報告。傳統上，自動化報告生成的發展受到一大阻礙：難以有效評估 AI 生成報告的臨床品質。自由格式的報告具有極高的自由度，且不同臨床環境（如急診與一般體檢）和地理區域對標準化的偏好差異極大。過去多數研究僅依賴自動化指標，缺乏與人類專家生成的真實報告進行全面對比。

為了突破這項限制，研究團隊基於大型視覺語言模型（vision-language model，能同時處理影像與文字資料的 AI 模型）開發了 Flamingo-CXR，並透過美國加護病房的 MIMIC-CXR 資料庫與印度一般門診的 IND1 資料庫進行微調。研究不僅測試了常規的自動化生成指標，更導入由 27 位跨國醫師組成的專家小組，進行成對偏好測試與錯誤修正評估，藉此還原系統在實際臨床工作流程中的真實潛力與盲區。

在美國急診資料集達成 33% 的效能提升

在衡量報告臨床相似度的自動化指標上，Flamingo-CXR 展現了顯著的突破。在涵蓋複雜急診案例的 MIMIC-CXR 資料集測試中，該模型在 CheXpert F1 分數（衡量 14 種臨床發現準確度的醫療評估指標）達到 0.519，並在 RadGraph F1 分數達到 0.205。相較於過去能夠同時生成「發現（Findings）」與「印象（Impressions）」段落的最先進模型 R2GenGPT 與 CvT-21DistillGPT2，Flamingo-CXR 在這兩項關鍵臨床指標上皆實現了高達 33% 的效能提升。

值得注意的是，即便與僅生成「發現」段落的模型（如擁有 120 億參數的 Med-PaLM-M）相比，Flamingo-CXR 在處理更長文本的同時，仍維持了極具競爭力的微觀平均（microaveraged）準確率。在針對 IND1 資料集的六項特定臨床條件（如心臟肥大、肺積水等）分類測試中，模型的整體準確度已與測試對照組中的人類放射科醫師相當。對於資料庫中出現頻率較高的心臟肥大等病徵，模型與專家標註的 Kendall's tau 相關係數甚至超越了部分保留組（held-out，未參與訓練的獨立測試集）的人類醫師。

然而，研究結果也呼應了自然語言生成領域常見的現象：傳統的自動化文字指標（如 CIDEr、BLEU4）無法真實反映醫療報告的臨床準確度。Flamingo-CXR 在 BLEU4 和 Rouge 分數上表現優異，但 CIDEr 分數卻有所折損，這凸顯了單靠字詞重合度來評估醫療 AI 的侷限性，也為後續引入人類專家雙盲評估奠定了必要性。

美印 27 位專家參與的成對偏好評估測試

為了獲得更細緻的臨床品質輪廓，研究團隊設計了成對偏好測試。在此環節中，醫師會同時看到一張胸部 X 光影像、一份 AI 生成報告以及一份未標示來源的原始人類報告，並被要求選擇哪一份更適合用於後續的病患照護。數據顯示，在印度的 IND1 資料集中，高達 77.7% 的 Flamingo-CXR 報告被半數以上的評審評為等同或優於人類原始報告；而在沒有顯著異常的常規健康檢查案例中，這個比例更是飆升至 94%。

相較之下，美國的 MIMIC-CXR 資料集因為源自重症加護病房，病情複雜且報告風格多變，AI 獲得青睞的難度明顯提升。儘管如此，仍有 56.1% 的 Flamingo-CXR 報告獲得半數以上專家的等同或偏好評價。有趣的是，在常規的門診報告中，多數醫師傾向給予「兩者等同」的評價，這反映了正常影像報告通常具有高度模板化的結構，使得高水準的報告之間難以區分優劣。

這項評估同時暴露了人類醫療專家之間存在極高的主觀差異。數據指出，在 MIMIC-CXR 案例中，評審對於哪份報告較佳的意見達成完全一致的比例僅有 27.4%，在 IND1 中也只有 44%。這種高度的評分者間變異性（inter-rater variability）不僅存在於美印兩個地理區域之間，也廣泛存在於同一地區的醫師群體內部，證明了放射科報告的撰寫不僅是科學診斷，更牽涉到臨床情境、地理區域以及醫師個人培訓背景的風格偏好。

分析 24.8% 雙方皆犯下臨床錯誤的門診案例

在另一項「錯誤修正」任務中，專家被要求找出報告中的錯誤並提供修改建議。結果打破了「人類報告必定完美」的假設：在兩個資料庫中，皆有超過 10% 的人類原始報告（Ground Truth）被審查醫師揪出具備臨床顯著性的錯誤。特別是在異常案例中，由於報告內容的複雜度驟升，人類原始報告出錯的頻率也隨之增加。不同地區的標準也帶來影響，美國的評審醫師普遍比印度的評審更常對原始報告提出異議。

當比較 AI 與人類的錯誤率時，兩者的表現呈現出因資料集而異的交叉現象。在印度的 IND1 門診資料集中，Flamingo-CXR 平均每份報告的錯誤數量（0.31）低於人類專家（0.39），但在包含「臨床顯著錯誤」的頻率上卻微幅高於人類（0.23 對比 0.20）。而在美國的 MIMIC-CXR 重症資料集中，AI 生成報告的平均錯誤數量（0.49）則明顯高於人類原始報告（0.27）。進一步拆解錯誤類型可以發現，「不正確的臨床發現」佔據了絕大宗，其次才是「不正確的嚴重程度」與「不正確的位置」。

最具洞察力的發現來自於錯誤重疊率的分析。在所有包含至少一個臨床顯著錯誤的案例中，高達 72.7%（MIMIC-CXR）與 59.7%（IND1）的錯誤是完全不重疊的。這意味著 AI 經常在人類寫對的地方犯錯（例如視覺語言模型常見的空間推理與計數能力受限），而人類則會在 AI 判斷正確的地方出現疏漏。高達 22.7% 到 27.3% 的案例中，只有人類報告包含臨床顯著錯誤，AI 報告反而是正確的。這種高度的不一致性強烈暗示了雙方在影像判讀上具有互補潛力。

醫師與 AI 協作讓報告偏好度攀升至 71.2%

基於 AI 與人類專家展現出的互補特性，研究團隊進一步測試了輔助型（Assistive）的協作情境。在這個模式下，由 Flamingo-CXR 率先生成第一版草稿，接著交由放射科醫師進行編修，醫師可以自由替換句子或補充額外資訊。測試結果顯示，這種「醫師＋AI」的協作模式大幅提升了報告的最終品質與同儕接受度。

在一個具體的臨床案例中，AI 原本的草稿僅提及「氣胸」，遭到所有四位評審一致給予劣於人類原始報告的評價；但經過協作醫師將其修正為「液氣胸（hydropneumothorax）」並精簡語句後，四位評審的偏好發生了 100% 的反轉，一致認為協作版的報告不僅更為簡潔，也更精準地傳達了臨床發現，其表現甚至超越了原本單純由人類撰寫的版本。

從宏觀數據來看，經過人類微調的協作報告在 IND1 資料集中，獲得半數以上醫師偏好或等同評價的比例，從獨立生成的 51.2% 躍升至 71.2%；在複雜的 MIMIC-CXR 資料集中，也從 44.4% 提升至 53.6%。儘管受限於基線的評分者變異性以及不同地區醫師編輯風格的差異，協作報告並未達到完美的 100% 偏好度，但這項概念驗證已明確指出了醫療 AI 落地的務實方向。未來的視覺語言模型將需要進一步強化指令遵循（instruction-following）與少樣本學習能力，以便在不大量重新訓練的前提下，靈活適應各家醫院與醫師的專屬撰寫風格。

視覺模型具備專家水準，但醫師與 AI 協作編輯，才是當前提升報告準確度的最佳路徑。

Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".

在美國急診資料集達成 33% 的效能提升

美印 27 位專家參與的成對偏好評估測試

分析 24.8% 雙方皆犯下臨床錯誤的門診案例

醫師與 AI 協作讓報告偏好度攀升至 71.2%

🔗 相關推薦

HQRN 結合 10 層量子殘差塊，不僅可繼承經典權重，更成功突破對抗性量子糾纏分類。

P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。

僅 25.3M 參數，SSMamba 於病理影像分類徹底擊敗 11 款主流大模型。