Korean J Radiol Full Text 2025-Dec DOI: 10.3348/kjr.2025.1392

Response to "When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting".

Min Dabin, Jin Kwang Nam, Park Chang Min

AI 導讀 academic AI 重要性 4/5

只要加上 Chain-of-Thought 提示詞，AI 就能在毫秒間從繁雜的 CCTA 文字報告中，精準榨出高達 94.6% 準確率的 CAD-RADS 2.0 結構化數據。

在外部多中心測試中，GPT-4o 與 o1-mini 對狹窄程度的提取準確率達 0.946，斑塊負荷高達 0.993。
讓 AI 輸出推理過程的 CoT 技巧，能讓 GPT-4 的狹窄判定準確率暴增 19.2%，是臨床應用的標配。
連商用旗艦 AI 都常犯「忽略左主幹 50-60% 需列 4B」的錯誤，放射科醫師在核對時必須親自把關。

讓模型把思考過程寫下來的 Chain-of-Thought 技巧，並非所有 AI 的萬靈丹。在萃取狹窄嚴重度時，它讓 GPT-4 的外部測試準確率暴增 19.2%，但對於內建多步推理架構的 o1-mini，準確率改變卻微乎其微（-4.1% 到 +2.0%）。這種提示詞的邊際效應，展示了不同模型處理結構化醫療報告的底層邏輯差異。

319份多中心報告與CAD-RADS 2.0提取挑戰

評估冠狀動脈疾病時，結構化報告能大幅提升醫師間的共識與診斷清晰度。CAD-RADS 2.0 框架不僅要求評估狹窄嚴重度（stenosis severity），還加入了斑塊負荷（plaque burden）與各類修飾符（modifiers）的系統性記錄。然而，實務上要求放射科醫師手動填寫這些繁瑣欄位，會消耗大量時間，導致臨床採用率停滯不前；同時，人工撰寫時用語的不一致，容易造成高風險斑塊特徵被忽略，或是狹窄程度被錯誤分類。

為了解決這個自動化填寫的痛點，研究團隊設計了一項多中心驗證。他們從六家不同機構收集了 319 份半結構化的 CCTA（冠狀動脈電腦斷層血管攝影） 報告。為了在保護病患隱私的前提下維持臨床真實感，這些報告由六位具備 6 至 16 年經驗的心胸放射科專科醫師，基於真實影像特徵進行「合成改寫」，保留了各家醫院慣用的獨特句型與描述習慣。

在數據分佈上，這 319 份報告被劃分為主要機構 X 的 150 份（其中 100 份作為指令開發集，50 份為內部測試集），以及來自五家外部機構的 169 份作為外部測試集。兩位資深專科醫師依據 CAD-RADS 2.0 指南，嚴格標註了狹窄程度、斑塊分數與六大修飾符，建立起絕對的參考標準（reference standard），藉此檢驗當代語言模型是否具備取代人工編碼的潛力。

六大模型競技與 CoT 提示工程的 19.2% 增益

為了找出最佳的自動化方案，作者挑選了市場上最具代表性的六款模型，包含 GPT-4、GPT-4o、Claude-3.5-Sonnet、o1-mini、Gemini-1.5-Pro，以及一款可以部署在醫院地端機房的開源模型 DeepSeek-R1-Distill-Qwen-14B（具備百億參數的輕量級開源模型）。所有測試過程皆遵循 MI-CLEAR-LLM（確保大型語言模型在醫療照護評估透明度的指南），將輸出溫度（temperature）設為 0 以保證結果的重現性，並要求模型直接輸出 JSON 格式。

模型表現的高度依賴於提示詞（prompt）的設計。團隊測試了基礎的 zero-shot（不給範例直接要求輸出結果） 與 few-shot（提供三個具備參考答案的專家報告範例）。更關鍵的是，他們引入了 CoT（讓 AI 輸出的 JSON 包含逐步推論軌跡的提示詞技術）。在 zero-shot CoT 中，僅在提示詞尾端加上「Let’s think step by step」；而在 few-shot CoT 中，則提供了由 Claude-3.5-Sonnet 預先生成的標準推理邏輯範例。

統計結果顯示，明確引導模型進行推論的 CoT 策略主宰了測試榜單。在全部 36 種「模型-任務-測試集」的組合中，結合範例與推論的 few-shot CoT 策略在 61.1%（22/36）的場景下取得了最佳準確率。若合併 zero-shot CoT 計算，加上推論軌跡的方法在高達 86.1% 的情況下是最佳解。特別是 GPT-4，在 few-shot CoT 輔助下，其外部測試的狹窄嚴重度準確率飆升了 0.192（P < 0.001），斑塊負荷準確率也提升了 0.152（P < 0.001）。

Table 2 準確率：外部測試狹窄程度達 0.946

從 Table 2 的極限表現來看，商用旗艦模型在各項指標上都交出了令人驚豔的成績單。提取「狹窄嚴重度」是三項任務中最困難的，但在內部測試中，Claude-3.5-Sonnet 與 o1-mini 皆達到了 0.980（48/49） 的巔峰；在外部機構的測試中，GPT-4o 與 o1-mini 也穩住了 0.946（158/167） 的高水準。

在「斑塊負荷」的判定上，多數模型展現了近乎完美的統治力。在內部測試中，包含 GPT-4o、GPT-4 與 Claude-3.5-Sonnet 等多款模型都拿下了 43/43 的 100% 準確率；到了外部測試，GPT-4o 與 o1-mini 依然保持著 0.993（137/138） 的極高水準。至於「修飾符」的偵測（包含 E、N、G、HRP、S），模型的表現最為穩定，內外部測試的平均準確率全數突破了 0.989。

以 McNemar 檢定進行成對比較後發現，模型間的實力差距主要集中在狹窄程度與斑塊負荷。在外部測試中，表現最佳的 GPT-4o 在狹窄程度判定上顯著擊敗了 Gemini-1.5-Pro（P = 0.033）與開源的 DeepSeek-14B（P < 0.001）。然而，DeepSeek-14B 作為一款小型地端模型，其內部狹窄準確率仍有 0.898（44/49），外部為 0.820（137/167）；且在 CoT 提示的加持下，其內部修飾符準確率從 0.880 大幅躍升至 0.990（P < 0.001），展現出極具性價比的臨床部署潛力。

Table 2 最佳提示策略下的內部/外部提取準確率

模型	狹窄程度 (內部)	狹窄程度 (外部)	斑塊負荷 (外部)
GPT-4o	0.837	0.940	0.993
GPT-4	0.816	0.928	0.971
Claude-3.5	0.980	0.904	0.986
o1-mini	0.980	0.946	0.993
DeepSeek-14B	0.898	0.820	0.935

資料來源：論文 Table 2 巔峰表現摘要

Table 6 錯誤分析：左冠狀動脈主幹 4B 陷阱

儘管整體準確率極高，但細看 Table 6 的模型錯誤分佈，仍能發現當前 AI 對於標準化診斷條件的理解存在盲區。研究團隊歸納出五大主流錯誤樣態：數值閾值誤用、定性術語誤解、多條血管分類錯誤、明確診斷標準遺漏，以及解釋性歧義。這些錯誤在不同模型間呈現出截然不同的傾向。

定性術語的誤解是開源模型最大的絆腳石。在 DeepSeek-14B 中，這類錯誤發生率高達 10.6%。最經典的案例是當報告寫出「中度狹窄（moderate stenosis）」時，模型將其歸類為 CAD-RADS 2，但根據指南的嚴格定義，中度狹窄應對應到 CAD-RADS 3。這種偏離指南、僅依賴語意直覺的分類，顯示了百億參數模型在缺乏微調下，難以完全覆蓋專業的放射科規則。

另一個致命陷阱是「明確診斷標準遺漏」，這連頂尖的 GPT-4 都無法倖免（發生率 3.2%）。根據 CAD-RADS 2.0 規則，只要「左冠狀動脈主幹（Left Main）」的狹窄程度達到 50%–60%，就強制必須升級為 4B 分類。然而，模型往往會忽略部位權重，按照一般血管的邏輯給予較低評級。此外，Gemini-1.5-Pro 則在數值邊界上容易摔跤（3.7% 錯誤率），例如將 69% 的狹窄錯誤劃分進 70%–99% 的級別中。

各家醫院的次群組分析（Figure 3）也點出了報告風格對 AI 的衝擊。在外部機構 B 到 E 中，多數模型的狹窄準確率都能維持在 0.815 到 1.000 之間；但唯獨在「機構 A」，所有模型的表現集體跳水。Claude-3.5-Sonnet 跌至 0.700（21/30），DeepSeek-14B 更是崩盤至 0.300（9/30）。這反映出當某家醫院的打字習慣或描述順序過於特異時，AI 萃取的穩定度就會面臨嚴峻考驗。

五家外部機構的狹窄程度判定表現

當報告風格過於獨特 (機構 A) 時，模型表現會集體跳水

合成 CCTA 數據侷限與 API 串接 PACS 願景

本研究坦承了幾個方法學上的侷限。首先，雖然 319 份報告由資深專科醫師費心改寫以貼近臨床，但合成數據終究無法完全重現真實世界中，急診忙亂下那些語句破碎、充滿錯字或邏輯矛盾的極端報告。其次，因收案醫院並未常規執行 FFR-CT（從電腦斷層推算的血流儲備分數），導致這批資料完全缺乏缺血修飾符（I）的驗證；而斑塊負荷的評估也僅限於那些有明確記載鈣化分數的案例。

在實務應用層面，作者強烈警告，直接透過外部 API 將病患的原始文字報告傳送給 OpenAI 或 Anthropic，存在極大的資料外洩風險。這也是為何評估 DeepSeek-14B 這類可斷網部署的小型開源模型至關重要。隨著這類本地模型的推理能力逐漸透過 CoT 技術逼近商業水準，醫院將能在不妥協資安的前提下，建構內部的自動化工具。

把視角拉到未來的閱片室，這項技術能與醫療影像儲傳系統（PACS）完美融合。當放射科醫師口述或打字輸入完病灶特徵後，系統即可在背景瞬間完成運算，將 CAD-RADS 2.0 的各項評分與修飾符自動填入表格。醫師只需擔任最終把關者點擊「確認」，不僅省去了背誦複雜分級規則的心智負擔，也能藉由 AI 提示，避免漏掉左主幹狹窄等高風險特徵，徹底打通結構化報告在臨床落地的阻礙。

若病歷提到「左主幹 50-60% 狹窄」，多數 AI 極易漏給 4B 評級；當你引入模型協助發報告時，請將這條規則設為強制覆寫的重點查核項目。

Response to "When AI Meets Coronary CT: Overcoming Challenges and Enhancing Accuracy in CAD-RADS Reporting".

319份多中心報告與CAD-RADS 2.0提取挑戰

六大模型競技與 CoT 提示工程的 19.2% 增益

Table 2 準確率：外部測試狹窄程度達 0.946

Table 6 錯誤分析：左冠狀動脈主幹 4B 陷阱

合成 CCTA 數據侷限與 API 串接 PACS 願景

🔗 相關推薦

最新評測證明，Gemini 2.5 Pro 在加入影像後準確率激增至 70%，正式告別 AI 只會看文字通靈的時代。

打破 CTP 單一血流閾值迷思，3D nnU-Net 能針對「打通與否」雙情境，將最終梗塞預測準確率翻倍。

兩階段AI以演化策略破解盲區，僅66筆影像即達100%脈絡膜轉移敏感度。