Comments on "Artificial Intelligence-Driven Drafting of Chest X-Ray Reports: 2025 Position Statement From the Korean Society of Thoracic Radiology Based on an Expert Survey".
27 位醫師盲測發現,視覺模型在常規 X 光報告高達 94% 媲美人類專家。
- Flamingo-CXR 模型在臨床指標達成 33% 顯著提升。
- 24.8% 門診案例顯示人類與 AI 皆會犯下獨特錯漏。
- 醫師與 AI 協作將門診報告偏好度從 51.2% 升至 71.2%。
透過徵召 27 位來自美國與印度的認證放射科醫師,一項針對視覺語言模型 Flamingo-CXR 的最新研究指出,在缺乏異常發現的常規胸部 X 光報告中,高達 94% 的 AI 生成內容被評估為等同或優於人類醫師的撰寫版本。然而,研究同時揭露人類與 AI 皆會犯下臨床顯著錯誤,在超過兩成的門診案例中,僅有 AI 模型生成了包含錯誤的報告。這項橫跨兩國資料庫的雙盲測試,首次量化了 AI 作為獨立生成器與輔助工具在真實醫療環境中的具體表現。
儘管醫療人工智慧在過去十年取得顯著進展,多數獲批的商業應用仍侷限於特定病理的狹隘分類任務。真正的臨床實務需要將影像發現轉化為帶有適當語氣、結合廣泛背景並提供實用建議的自然語言報告。傳統上,自動化報告生成的發展受到一大阻礙:難以有效評估 AI 生成報告的臨床品質。自由格式的報告具有極高的自由度,且不同臨床環境(如急診與一般體檢)和地理區域對標準化的偏好差異極大。過去多數研究僅依賴自動化指標,缺乏與人類專家生成的真實報告進行全面對比。
為了突破這項限制,研究團隊基於大型視覺語言模型(vision-language model,能同時處理影像與文字資料的 AI 模型)開發了 Flamingo-CXR,並透過美國加護病房的 MIMIC-CXR 資料庫與印度一般門診的 IND1 資料庫進行微調。研究不僅測試了常規的自動化生成指標,更導入由 27 位跨國醫師組成的專家小組,進行成對偏好測試與錯誤修正評估,藉此還原系統在實際臨床工作流程中的真實潛力與盲區。
在美國急診資料集達成 33% 的效能提升
在衡量報告臨床相似度的自動化指標上,Flamingo-CXR 展現了顯著的突破。在涵蓋複雜急診案例的 MIMIC-CXR 資料集測試中,該模型在 CheXpert F1 分數(衡量 14 種臨床發現準確度的醫療評估指標)達到 0.519,並在 RadGraph F1 分數達到 0.205。相較於過去能夠同時生成「發現(Findings)」與「印象(Impressions)」段落的最先進模型 R2GenGPT 與 CvT-21DistillGPT2,Flamingo-CXR 在這兩項關鍵臨床指標上皆實現了高達 33% 的效能提升。
值得注意的是,即便與僅生成「發現」段落的模型(如擁有 120 億參數的 Med-PaLM-M)相比,Flamingo-CXR 在處理更長文本的同時,仍維持了極具競爭力的微觀平均(microaveraged)準確率。在針對 IND1 資料集的六項特定臨床條件(如心臟肥大、肺積水等)分類測試中,模型的整體準確度已與測試對照組中的人類放射科醫師相當。對於資料庫中出現頻率較高的心臟肥大等病徵,模型與專家標註的 Kendall's tau 相關係數甚至超越了部分保留組(held-out,未參與訓練的獨立測試集)的人類醫師。
然而,研究結果也呼應了自然語言生成領域常見的現象:傳統的自動化文字指標(如 CIDEr、BLEU4)無法真實反映醫療報告的臨床準確度。Flamingo-CXR 在 BLEU4 和 Rouge 分數上表現優異,但 CIDEr 分數卻有所折損,這凸顯了單靠字詞重合度來評估醫療 AI 的侷限性,也為後續引入人類專家雙盲評估奠定了必要性。
美印 27 位專家參與的成對偏好評估測試
為了獲得更細緻的臨床品質輪廓,研究團隊設計了成對偏好測試。在此環節中,醫師會同時看到一張胸部 X 光影像、一份 AI 生成報告以及一份未標示來源的原始人類報告,並被要求選擇哪一份更適合用於後續的病患照護。數據顯示,在印度的 IND1 資料集中,高達 77.7% 的 Flamingo-CXR 報告被半數以上的評審評為等同或優於人類原始報告;而在沒有顯著異常的常規健康檢查案例中,這個比例更是飆升至 94%。
相較之下,美國的 MIMIC-CXR 資料集因為源自重症加護病房,病情複雜且報告風格多變,AI 獲得青睞的難度明顯提升。儘管如此,仍有 56.1% 的 Flamingo-CXR 報告獲得半數以上專家的等同或偏好評價。有趣的是,在常規的門診報告中,多數醫師傾向給予「兩者等同」的評價,這反映了正常影像報告通常具有高度模板化的結構,使得高水準的報告之間難以區分優劣。
這項評估同時暴露了人類醫療專家之間存在極高的主觀差異。數據指出,在 MIMIC-CXR 案例中,評審對於哪份報告較佳的意見達成完全一致的比例僅有 27.4%,在 IND1 中也只有 44%。這種高度的評分者間變異性(inter-rater variability)不僅存在於美印兩個地理區域之間,也廣泛存在於同一地區的醫師群體內部,證明了放射科報告的撰寫不僅是科學診斷,更牽涉到臨床情境、地理區域以及醫師個人培訓背景的風格偏好。
分析 24.8% 雙方皆犯下臨床錯誤的門診案例
在另一項「錯誤修正」任務中,專家被要求找出報告中的錯誤並提供修改建議。結果打破了「人類報告必定完美」的假設:在兩個資料庫中,皆有超過 10% 的人類原始報告(Ground Truth)被審查醫師揪出具備臨床顯著性的錯誤。特別是在異常案例中,由於報告內容的複雜度驟升,人類原始報告出錯的頻率也隨之增加。不同地區的標準也帶來影響,美國的評審醫師普遍比印度的評審更常對原始報告提出異議。
當比較 AI 與人類的錯誤率時,兩者的表現呈現出因資料集而異的交叉現象。在印度的 IND1 門診資料集中,Flamingo-CXR 平均每份報告的錯誤數量(0.31)低於人類專家(0.39),但在包含「臨床顯著錯誤」的頻率上卻微幅高於人類(0.23 對比 0.20)。而在美國的 MIMIC-CXR 重症資料集中,AI 生成報告的平均錯誤數量(0.49)則明顯高於人類原始報告(0.27)。進一步拆解錯誤類型可以發現,「不正確的臨床發現」佔據了絕大宗,其次才是「不正確的嚴重程度」與「不正確的位置」。
最具洞察力的發現來自於錯誤重疊率的分析。在所有包含至少一個臨床顯著錯誤的案例中,高達 72.7%(MIMIC-CXR)與 59.7%(IND1)的錯誤是完全不重疊的。這意味著 AI 經常在人類寫對的地方犯錯(例如視覺語言模型常見的空間推理與計數能力受限),而人類則會在 AI 判斷正確的地方出現疏漏。高達 22.7% 到 27.3% 的案例中,只有人類報告包含臨床顯著錯誤,AI 報告反而是正確的。這種高度的不一致性強烈暗示了雙方在影像判讀上具有互補潛力。
醫師與 AI 協作讓報告偏好度攀升至 71.2%
基於 AI 與人類專家展現出的互補特性,研究團隊進一步測試了輔助型(Assistive)的協作情境。在這個模式下,由 Flamingo-CXR 率先生成第一版草稿,接著交由放射科醫師進行編修,醫師可以自由替換句子或補充額外資訊。測試結果顯示,這種「醫師+AI」的協作模式大幅提升了報告的最終品質與同儕接受度。
在一個具體的臨床案例中,AI 原本的草稿僅提及「氣胸」,遭到所有四位評審一致給予劣於人類原始報告的評價;但經過協作醫師將其修正為「液氣胸(hydropneumothorax)」並精簡語句後,四位評審的偏好發生了 100% 的反轉,一致認為協作版的報告不僅更為簡潔,也更精準地傳達了臨床發現,其表現甚至超越了原本單純由人類撰寫的版本。
從宏觀數據來看,經過人類微調的協作報告在 IND1 資料集中,獲得半數以上醫師偏好或等同評價的比例,從獨立生成的 51.2% 躍升至 71.2%;在複雜的 MIMIC-CXR 資料集中,也從 44.4% 提升至 53.6%。儘管受限於基線的評分者變異性以及不同地區醫師編輯風格的差異,協作報告並未達到完美的 100% 偏好度,但這項概念驗證已明確指出了醫療 AI 落地的務實方向。未來的視覺語言模型將需要進一步強化指令遵循(instruction-following)與少樣本學習能力,以便在不大量重新訓練的前提下,靈活適應各家醫院與醫師的專屬撰寫風格。
視覺模型具備專家水準,但醫師與 AI 協作編輯,才是當前提升報告準確度的最佳路徑。