Evaluating the Accuracy and Diagnostic Reasoning of Multimodal Large Language Models in Interpreting Neuroradiology Cases From

Suh Pae Sun, Ko Ji Su, Shim Woo Hyun, Heo Hwon, Woo Chang-Yun, et al.

View Original ↗
AI 導讀 academic AI 重要性 5/5

最新評測證明,Gemini 2.5 Pro 在加入影像後準確率激增至 70%,正式告別 AI 只會看文字通靈的時代。

  • o3 拿下 72% 最高答對率,但其在「不看圖」的純文字模式下也能拿 67%,極度依賴文字推論。
  • Gemini 2.5 Pro 是唯一展現強大「看圖」實力的模型,加入影像後正確率從 59% 狂飆至 70% (p=0.001)。
  • 兩位放射科醫師的盲測評分中,Gemini 2.5 Pro 的推理報告合理性擊敗 o3,拿下滿分 5 級分的最高評價。

雖然 OpenAI 的 o3 在日本放射專科考試中創下 72% 的驚人正確率,但最駭人的事實是:它在「完全不看圖」的瞎猜模式下也能拿 67%。真正學會看片的其實是 Google 的 Gemini 2.5 Pro,給予影像後正確率從 59% 狂飆至 70%p=0.001)。

放射專科測驗演進:從文字通靈到真正判讀影像

大型語言模型 LLM 具備深厚的醫學文本底蘊,但在放射科領域,過去的 VLM(vision-language models,視覺語言模型,能同時吃入文字與影像並進行推演)表現卻令人難以信服。先前研究表明,早期的 GPT-4 Turbo with Vision 在日本放射線科診斷專業醫師考試 JDRBE 中,看圖的成績竟然沒有比純看文字好。甚至在加上影像輸入後,由於模型糟糕的圖像理解力,會導致它生出充滿幻覺的描述,讓放射科醫師給出的主觀合理性評分顯著下降。其他如 GPT-4o 或 Claude 3 Opus 也遭遇極度類似的發展瓶頸。

這意味著,過去這些標榜「多模態」的模型,能考高分往往依賴強大無比的文字推理能力,而非真正具備如同人類醫師般的閱片能力。只要題幹描述得夠詳細,AI 就能猜出答案,影像反而是干擾。為了檢驗二〇二五年初各大廠釋出的最新「推理模型」(Reasoning models,能把複雜任務拆解成小步驟並具備內部邏輯推論思維的新架構),這份研究針對它們在 JDRBE 的極限進行了地毯式搜索。這批新一代 AI 是否終於學會把死板的文字知識與真實的醫學影像像素連結起來,是評估其實用價值的絕對關鍵。

納入 233 題專科考驗與八大 AI 模型的競技場

本回顧性研究蒐集了二〇二一、二〇二三與二〇二四年 JDRBE 考題。該測驗要求考生至少具備五年放射科專科訓練資歷,考驗全面的診斷實力。團隊排除了無圖題以及多位資深專科醫師無法取得百分之百共識的爭議題,最終納入 233 道題目。這批考題共包含 477 張影像,涵蓋 184 張電腦斷層 CT、159 張磁振造影 MRI、15 張 X 光與 90 張核子醫學影像。大約九成考題為單選題,剩下一成為應選兩項的多選題。

參賽陣容極度豪華,涵蓋八款最前沿的模型:OpenAI 家族的 GPT-4 Turbo(作為基準比較對象)、GPT-4o、GPT-4.5、GPT-4.1,以及具備深度推理能力的 o3 與 o4-mini;Anthropic 推出的 Claude 3.7 Sonnet;以及 Google DeepMind 剛端出的 Gemini 2.5 Pro。所有模型都必須在兩種情境下作答:同時給予題幹與影像(Vision 條件),以及強行拔掉圖片只給題幹文字(Text-only 條件)。團隊將 PDF 中的影像提取為 PNG 或 JPEG 格式餵給模型。

評估指標除了結算答對幾題,也利用 McNemar’s exact test(比較同一批考題在給圖與不給圖兩種配對條件下,答對率改變是否具備顯著性的統計法)來檢驗影像是否真的帶來進步。此外,研究團隊更邀請兩位分別具備兩年與十八年資歷的放射科專科醫師,在不知曉模型身份的完全盲測狀態下,以五級分的 Likert scale(五級分量表,一分極差到五分極優)為其中四款模型的推論過程打分數,檢視其診斷思維的含金量。

JDRBE 考題資料庫與影像分布
分類維度數量與細節
考題年份2021, 2023, 2024 年專科考題
最終納入題數233 題(單選 210 題,雙選 23 題)
包含總影像數477 張(皆保持原解析度)
影像模態分布CT: 184 / MRI: 159 / NM: 90 / XR: 15

篩除無共識考題,總計 477 張醫學影像

Table 3 戰力表:o3 的 72% 與 Gemini 視覺躍進

直接檢視 Table 3 呈現的整體答對率,各家模型的戰鬥力出現極大分歧。在包含影像的 Vision 條件下,OpenAI 的 o3 拿下榜首,正確率高達 72%(答對 168/233 題),緊追在後的是輕量級 o4-mini 的 70%(163 題)與 Gemini 2.5 Pro 的 70%(162 題)。相較之下,作為基準線的老舊模型 GPT-4 Turbo 僅有 42%(97 題),而 Claude 3.7 Sonnet 也只有差強人意的 55%(127 題)。

然而,當我們將焦點轉向兩種給題條件的數值差異時,卻看到截然不同的底層邏輯。o3 在完全不給圖的 Text-only 條件下,竟然也能靠著純文字描述與五個選項,硬生生推演出 67% 的正確率。當額外提供影像給 o3 觀看時,它的進步幅度在統計上並不顯著(p=0.126)。這強烈暗示 o3 極度仰賴其深不可測的文本邏輯運算來暴力破解考題,看圖能力反而只是輔助。

真正因為「看到影像」而產生質變的模型只有兩位:GPT-4.5 正確率從純文字的 59% 提升至看圖後的 67%p=0.030);而 Gemini 2.5 Pro 的進步最為猛烈,從文字瞎猜的 59% 狂飆至看圖後的 70%p=0.001)。這項數據首度以極其明確的統計顯著性證明,最新的多模態模型終於跨越了單純依賴文字通靈的尷尬期,影像輸入確實能被其神經網路轉化為實質的診斷線索。

四大 AI 模型給圖前後答對率變化

Gemini 2.5 Pro 給予影像後產生巨大躍進

Table 4 次群組拆解:MRI 成 Gemini 2.5 Pro 主場

若細看 Table 4 依照影像模態進行的次群組分析,更能凸顯各家 AI 面對不同檢查工具的偏好。在納入 107 題 CT 與 79 題 MRI 的分類中,具備高段推理能力的 o3、o4-mini 與 Gemini 2.5 Pro 在這兩種主流截面積影像上,都展現了加上圖片後的正向進步趨勢。這與過去舊模型一看到複雜斷層影像就當機的狀況完全不同。

其中最值得關注的依然是 Gemini 2.5 Pro 的成長軌跡。它在各個影像模態都呈現全面性的大幅攀升,尤其在磁振造影 MRI 的題目中,給予影像讓它的答對題數從 39 題暴增至 53 題(正確率由 49% 躍升至 67%)。相對於 X 光,MRI 高度仰賴對不同脈衝序列對比、皮質與白質解剖位置的精細辨識,Gemini 2.5 Pro 能夠在該領域取得最大進展,顯示其背後的視覺編碼器有針對複雜醫學影像進行過深度優化。

論文中特別拉出 Figure 3 的真實考題進行火力展示:一位三十多歲出現短暫失語症男性的 MRI 影像(包含對比劑增強與亞急性期變化),要鑑別五種腦腫瘤。GPT-4 Turbo 發生了無可救藥的左右不分,誤認病灶在右側額葉並亂猜是淋巴瘤;Claude 3.7 Sonnet 雖然看對了位置,卻莫名其妙生出「均勻顯影」的錯誤幻覺描述。反觀 o3 與 Gemini 2.5 Pro,兩者不僅精準點出顯影極輕微(minimal contrast enhancement),還敏銳捕捉到病灶內微小的鈣化特徵,最終雙雙推導出正確答案——少突膠質細胞瘤(oligodendroglioma)。

專科醫師 Likert 評分:為何 o3 準卻輸了合理性

在專科考試裡答對選擇題是一回事,打出來的影像報告能不能看又是另一回事。研究團隊抽出二〇二四年考題的九十二份回覆,交由兩位不同資歷的放射科醫師評估其診斷推理的「合法性與合理性」。Figure 4 揭示了這個主觀評估的分數分布,兩位評分者之間具備極高的共識(Quadratic weighted kappa 達 0.855)。

在五級分量表上,答對率最高的 o3 拿下了中位數 44.5 的優異表現,但最高評價的殊榮卻被 Gemini 2.5 Pro 奪走,兩位醫師分別給予其中位數 4 與滿分 5 的極致評價。經過 Friedman’s test(無母數的變異數分析,用來比較三組以上數據的大小排列)與事後成對比較檢定,第一位資淺醫師認為 Gemini 2.5 Pro 顯著優於 o3(p=0.027),第二位資深醫師雖認為兩者差異未達統計顯著(p=0.196),但仍不吝給予極高肯定。

至於其他模型則慘不忍睹:Claude 3.7 Sonnet 中位數僅得 3 分,而老將 GPT-4 Turbo 只拿到極差的 2 分。GPT-4 Turbo 甚至在所有的兩兩比較中,都被判定顯著劣於其他三款模型(p<0.001)。這個評分結果說明了一件放射科的實務硬道理:雖然 o3 靠著極致的推論邏輯把選擇題的正確率衝高,但當要求 AI 交代「我是怎麼看這張圖」的思考過程時,Gemini 2.5 Pro 所寫出的 findings 與 differential diagnosis 結構反而更貼近人類主治醫師的判讀邏輯,展現出更具說服力的影像實質理解力。

放射科專科醫師主觀合理性評分
模型名稱資淺醫師中位數資深醫師中位數綜合評價
Gemini 2.5 Pro4 分5 分合理性最佳,精確描述鈣化點
o34 分4.5 分推理極佳,但略遜 Gemini
Claude 3.7 Sonnet3 分3 分產生均勻顯影等幻覺描述
GPT-4 Turbo2 分2 分左右不分,鑑別診斷不合邏輯

Gemini 2.5 Pro 取得最具臨床說服力的推論

黑盒子模型與知識庫污染下的放射科臨床指引

儘管結果振奮人心,這份研究也坦承了幾項當代模型不可忽視的限制。首先是推理模型特有的隨機性與不穩定性。由於 o3 與 o4-mini 在 API 端完全不開放使用者調整 temperature 參數(用來控制模型輸出創造力與發散程度的變數),每次給予同一張片子,它可能會生成截然不同的內部推演路徑,導致輸出品質無法做到醫學所需的絕對穩定。其次,由於部分考題的年份早於模型發布的 knowledge cutoff(知識庫截止日),雖然專科學會考題屬於封閉型資料,仍無法百分之百排除模型在預訓練階段已經偷偷「背下」考古題文字的外洩風險。

對於臨床第一線的放射科醫師而言,本篇實證給出了極其明確的工具選擇建議:當我們需要 AI 幫忙分析複雜的 MRI 病灶特徵、抓出細微鈣化並尋找相符的鑑別診斷時,Gemini 2.5 Pro 已經具備當下最強的「圖文整合」實力與「論述合理性」。而當面對臨床病史繁雜、只需從報告文字海中推理出單一最適處置時,無疑是 OpenAI o3 發揮純文字暴力破解的絕對主場。不要再使用過時的 GPT-4 Turbo 來問影像問題,因為它不僅會搞錯左右,還會用幻覺硬生生湊出一個不合邏輯的鑑別診斷。

未來,隨著這些多模態模型進一步整合能夠處理 3D 空間連續性的專用醫學演算法,我們預期 AI 在放射科的破壞性成長將不再受限於文字選擇題,而是具備直接起草高品質 routine 報告的潛力。

當你要丟複雜腦部 MRI 找鑑別診斷,開 Gemini 2.5 Pro 讓它看圖;若只有落落長的病史想推導最佳處置,純用 o3 才是正解。

Abstract

To evaluate the accuracy and reasoning capabilities of large multimodal language models compared with those of neuroradiology subspecialty-trained radiologists in neuroradiology case interpretation. This experimental study used custom-made 401 radiologic quizzes derived from articles published in Top-3 accuracy (i.e., correct answers present among top-3 differential diagnoses) of LLMs ranged from 29.9% (120 of 401) to 49.4% (198 of 401, obtained with GPT-4V in the T1 setting), while radiologists achieved 80.3% (322 of 401) and 68.3% (274 of 401), respectively ( LLMs remarkably underperformed compared with neuroradiologists and showed unsatisfactory reasoning for their differential diagnoses, with performance declining further in cases without textual input of clinical history. These findings highlight the limitations of current multimodal LLMs in neuroradiological interpretation and their reliance on text input.