Response to "When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting".

Min Dabin, Jin Kwang Nam, Park Chang Min

View Original ↗
AI 導讀 academic AI 重要性 4/5

只要加上 Chain-of-Thought 提示詞,AI 就能在毫秒間從繁雜的 CCTA 文字報告中,精準榨出高達 94.6% 準確率的 CAD-RADS 2.0 結構化數據。

  • 在外部多中心測試中,GPT-4o 與 o1-mini 對狹窄程度的提取準確率達 0.946,斑塊負荷高達 0.993。
  • 讓 AI 輸出推理過程的 CoT 技巧,能讓 GPT-4 的狹窄判定準確率暴增 19.2%,是臨床應用的標配。
  • 連商用旗艦 AI 都常犯「忽略左主幹 50-60% 需列 4B」的錯誤,放射科醫師在核對時必須親自把關。

讓模型把思考過程寫下來的 Chain-of-Thought 技巧,並非所有 AI 的萬靈丹。在萃取狹窄嚴重度時,它讓 GPT-4 的外部測試準確率暴增 19.2%,但對於內建多步推理架構的 o1-mini,準確率改變卻微乎其微(-4.1% 到 +2.0%)。這種提示詞的邊際效應,展示了不同模型處理結構化醫療報告的底層邏輯差異。

319份多中心報告與CAD-RADS 2.0提取挑戰

評估冠狀動脈疾病時,結構化報告能大幅提升醫師間的共識與診斷清晰度。CAD-RADS 2.0 框架不僅要求評估狹窄嚴重度(stenosis severity),還加入了斑塊負荷(plaque burden)與各類修飾符(modifiers)的系統性記錄。然而,實務上要求放射科醫師手動填寫這些繁瑣欄位,會消耗大量時間,導致臨床採用率停滯不前;同時,人工撰寫時用語的不一致,容易造成高風險斑塊特徵被忽略,或是狹窄程度被錯誤分類。

為了解決這個自動化填寫的痛點,研究團隊設計了一項多中心驗證。他們從六家不同機構收集了 319 份半結構化的 CCTA(冠狀動脈電腦斷層血管攝影) 報告。為了在保護病患隱私的前提下維持臨床真實感,這些報告由六位具備 6 至 16 年經驗的心胸放射科專科醫師,基於真實影像特徵進行「合成改寫」,保留了各家醫院慣用的獨特句型與描述習慣。

在數據分佈上,這 319 份報告被劃分為主要機構 X 的 150 份(其中 100 份作為指令開發集,50 份為內部測試集),以及來自五家外部機構的 169 份作為外部測試集。兩位資深專科醫師依據 CAD-RADS 2.0 指南,嚴格標註了狹窄程度、斑塊分數與六大修飾符,建立起絕對的參考標準(reference standard),藉此檢驗當代語言模型是否具備取代人工編碼的潛力。

六大模型競技與 CoT 提示工程的 19.2% 增益

為了找出最佳的自動化方案,作者挑選了市場上最具代表性的六款模型,包含 GPT-4、GPT-4o、Claude-3.5-Sonnet、o1-mini、Gemini-1.5-Pro,以及一款可以部署在醫院地端機房的開源模型 DeepSeek-R1-Distill-Qwen-14B(具備百億參數的輕量級開源模型)。所有測試過程皆遵循 MI-CLEAR-LLM(確保大型語言模型在醫療照護評估透明度的指南),將輸出溫度(temperature)設為 0 以保證結果的重現性,並要求模型直接輸出 JSON 格式。

模型表現的高度依賴於提示詞(prompt)的設計。團隊測試了基礎的 zero-shot(不給範例直接要求輸出結果)few-shot(提供三個具備參考答案的專家報告範例)。更關鍵的是,他們引入了 CoT(讓 AI 輸出的 JSON 包含逐步推論軌跡的提示詞技術)。在 zero-shot CoT 中,僅在提示詞尾端加上「Let’s think step by step」;而在 few-shot CoT 中,則提供了由 Claude-3.5-Sonnet 預先生成的標準推理邏輯範例。

統計結果顯示,明確引導模型進行推論的 CoT 策略主宰了測試榜單。在全部 36 種「模型-任務-測試集」的組合中,結合範例與推論的 few-shot CoT 策略在 61.1%(22/36)的場景下取得了最佳準確率。若合併 zero-shot CoT 計算,加上推論軌跡的方法在高達 86.1% 的情況下是最佳解。特別是 GPT-4,在 few-shot CoT 輔助下,其外部測試的狹窄嚴重度準確率飆升了 0.192(P < 0.001),斑塊負荷準確率也提升了 0.152(P < 0.001)。

Table 2 準確率:外部測試狹窄程度達 0.946

從 Table 2 的極限表現來看,商用旗艦模型在各項指標上都交出了令人驚豔的成績單。提取「狹窄嚴重度」是三項任務中最困難的,但在內部測試中,Claude-3.5-Sonnet 與 o1-mini 皆達到了 0.980(48/49) 的巔峰;在外部機構的測試中,GPT-4o 與 o1-mini 也穩住了 0.946(158/167) 的高水準。

在「斑塊負荷」的判定上,多數模型展現了近乎完美的統治力。在內部測試中,包含 GPT-4o、GPT-4 與 Claude-3.5-Sonnet 等多款模型都拿下了 43/43 的 100% 準確率;到了外部測試,GPT-4o 與 o1-mini 依然保持著 0.993(137/138) 的極高水準。至於「修飾符」的偵測(包含 E、N、G、HRP、S),模型的表現最為穩定,內外部測試的平均準確率全數突破了 0.989

以 McNemar 檢定進行成對比較後發現,模型間的實力差距主要集中在狹窄程度與斑塊負荷。在外部測試中,表現最佳的 GPT-4o 在狹窄程度判定上顯著擊敗了 Gemini-1.5-Pro(P = 0.033)與開源的 DeepSeek-14B(P < 0.001)。然而,DeepSeek-14B 作為一款小型地端模型,其內部狹窄準確率仍有 0.898(44/49),外部為 0.820(137/167);且在 CoT 提示的加持下,其內部修飾符準確率從 0.880 大幅躍升至 0.990(P < 0.001),展現出極具性價比的臨床部署潛力。

Table 2 最佳提示策略下的內部/外部提取準確率
模型狹窄程度 (內部)狹窄程度 (外部)斑塊負荷 (外部)
GPT-4o0.8370.9400.993
GPT-40.8160.9280.971
Claude-3.50.9800.9040.986
o1-mini0.9800.9460.993
DeepSeek-14B0.8980.8200.935

資料來源:論文 Table 2 巔峰表現摘要

Table 6 錯誤分析:左冠狀動脈主幹 4B 陷阱

儘管整體準確率極高,但細看 Table 6 的模型錯誤分佈,仍能發現當前 AI 對於標準化診斷條件的理解存在盲區。研究團隊歸納出五大主流錯誤樣態:數值閾值誤用、定性術語誤解、多條血管分類錯誤、明確診斷標準遺漏,以及解釋性歧義。這些錯誤在不同模型間呈現出截然不同的傾向。

定性術語的誤解是開源模型最大的絆腳石。在 DeepSeek-14B 中,這類錯誤發生率高達 10.6%。最經典的案例是當報告寫出「中度狹窄(moderate stenosis)」時,模型將其歸類為 CAD-RADS 2,但根據指南的嚴格定義,中度狹窄應對應到 CAD-RADS 3。這種偏離指南、僅依賴語意直覺的分類,顯示了百億參數模型在缺乏微調下,難以完全覆蓋專業的放射科規則。

另一個致命陷阱是「明確診斷標準遺漏」,這連頂尖的 GPT-4 都無法倖免(發生率 3.2%)。根據 CAD-RADS 2.0 規則,只要「左冠狀動脈主幹(Left Main)」的狹窄程度達到 50%–60%,就強制必須升級為 4B 分類。然而,模型往往會忽略部位權重,按照一般血管的邏輯給予較低評級。此外,Gemini-1.5-Pro 則在數值邊界上容易摔跤(3.7% 錯誤率),例如將 69% 的狹窄錯誤劃分進 70%–99% 的級別中。

各家醫院的次群組分析(Figure 3)也點出了報告風格對 AI 的衝擊。在外部機構 B 到 E 中,多數模型的狹窄準確率都能維持在 0.815 到 1.000 之間;但唯獨在「機構 A」,所有模型的表現集體跳水。Claude-3.5-Sonnet 跌至 0.700(21/30),DeepSeek-14B 更是崩盤至 0.300(9/30)。這反映出當某家醫院的打字習慣或描述順序過於特異時,AI 萃取的穩定度就會面臨嚴峻考驗。

五家外部機構的狹窄程度判定表現

當報告風格過於獨特 (機構 A) 時,模型表現會集體跳水

合成 CCTA 數據侷限與 API 串接 PACS 願景

本研究坦承了幾個方法學上的侷限。首先,雖然 319 份報告由資深專科醫師費心改寫以貼近臨床,但合成數據終究無法完全重現真實世界中,急診忙亂下那些語句破碎、充滿錯字或邏輯矛盾的極端報告。其次,因收案醫院並未常規執行 FFR-CT(從電腦斷層推算的血流儲備分數),導致這批資料完全缺乏缺血修飾符(I)的驗證;而斑塊負荷的評估也僅限於那些有明確記載鈣化分數的案例。

在實務應用層面,作者強烈警告,直接透過外部 API 將病患的原始文字報告傳送給 OpenAI 或 Anthropic,存在極大的資料外洩風險。這也是為何評估 DeepSeek-14B 這類可斷網部署的小型開源模型至關重要。隨著這類本地模型的推理能力逐漸透過 CoT 技術逼近商業水準,醫院將能在不妥協資安的前提下,建構內部的自動化工具。

把視角拉到未來的閱片室,這項技術能與醫療影像儲傳系統(PACS)完美融合。當放射科醫師口述或打字輸入完病灶特徵後,系統即可在背景瞬間完成運算,將 CAD-RADS 2.0 的各項評分與修飾符自動填入表格。醫師只需擔任最終把關者點擊「確認」,不僅省去了背誦複雜分級規則的心智負擔,也能藉由 AI 提示,避免漏掉左主幹狹窄等高風險特徵,徹底打通結構化報告在臨床落地的阻礙。

若病歷提到「左主幹 50-60% 狹窄」,多數 AI 極易漏給 4B 評級;當你引入模型協助發報告時,請將這條規則設為強制覆寫的重點查核項目。