Do General-Purpose Multimodal Large Language Models Really See Radiologic Images or Rely on Text?
頂級醫學期刊的 AI 論文有過半未交代訓練資料截止日,僅 13.2% 能證明測試集未受污染,重新定義了 LLM 研究的重現性危機。
- 僅 13.2% 的頂刊 LLM 論文能明確證明測試資料的獨立性,資料洩漏導致的虛高準確率風險極大。
- 放射科在提供完整提示詞語法的比例達 77.8%,顯著高於其他科別,但極度缺乏交代模型資料截止日期。
- 高達 84.3% 的研究沒有報告對模型進行了幾次重複提問,完全忽略了 LLM 隨機生成導致的結果波動。
頂級醫學期刊發表的 AI 研究看似嚴謹,但實際上高達 86.8% 的大型語言模型論文,無法證明其測試資料未曾混入訓練集。這篇發表於韓國放射線醫學會官方期刊的系統性回顧,利用最新的 MI-CLEAR-LLM 查核表,審視了 159 篇高影響因子期刊的 LLM(大型語言模型,如 ChatGPT 等可處理文字與多模態指令的人工智慧)臨床應用論文。如果你打算把最新的 AI 讀片或診斷論文應用到實務中,這份客觀統計數據會讓你重新思考那些宣稱「準確率超越人類醫師」的華麗圖表背後,到底隱藏了多少重現性危機。
評估 159 篇頂刊論文與 MI-CLEAR-LLM 查核表
醫學界對於 LLM 的應用正處於爆炸性成長的階段,但這些研究的方法學與報告標準卻極度不一致。為了量化這種現象,作者團隊採用了 MI-CLEAR-LLM(專為醫療領域大型語言模型準確度評估設計的最低報告項目查核表)。這套標準不同於過去泛用的 AI 評估指南,它直指 LLM 獨有的六大特徵:模型身分規格、隨機性處理、提示詞語法、提示詞結構、提示詞測試優化,以及測試數據的獨立性。這項研究旨在盤點當前頂尖醫學期刊到底有沒有把這些基本功做好。
從收案流程來看,研究團隊在 PubMed 上搜尋了 2022 年 11 月 30 日至 2024 年 6 月 25 日期間發表的文獻。為了確保分析對象具備足夠的學術影響力,他們嚴格篩選出發表於 2023 年期刊影響因子(JIF)排名前 10% 的臨床醫學期刊原創研究。最初的檢索得到 13,515 篇文章,經過剔除重複、非前 10% 期刊、非原創研究(如綜述、社論、病例報告)後,最終納入 159 篇論文進行深度數據萃取。資料由一位神經放射科醫師與一位深度學習專家獨立進行,兩人之間的 Cohen’s kappa 值為 0.69,顯示達到實質上的一致性(substantial agreement)。
進一步分析這 159 篇論文的次專科分佈,一般醫學領域佔據多數,共有 54 篇(34.0%)。對於我們放射科醫師而言,值得注意的是放射線與核子醫學科以 18 篇(11.3%)位居第二大領域,其次則是眼科的 13 篇(8.2%)、腫瘤科 9 篇(5.7%)與神經外科 9 篇(5.7%)。這份多專科的真實世界統計,反映了放射科在採用與測試多模態大型語言模型上,確實走在臨床各科的前沿。
| 階段 / 科別 | 數量 / 比例 |
|---|---|
| 最初檢索文獻 | 13,515 篇 |
| 最終納入分析 | 159 篇 |
| 一般醫學領域 | 54 篇 (34.0%) |
| 放射線與核子醫學 | 18 篇 (11.3%) |
| 眼科 | 13 篇 (8.2%) |
PubMed 頂級期刊篩選結果(2022.11 - 2024.06)
Figure 2 揭示的基本模型設定與檢索增強盲點
檢視查核表的第一大項「模型身分與規格」,所有研究在表面功夫上都做得不錯。159 篇研究中有 100% 完整報告了所使用的 LLM 名稱,96.9%(154 篇)寫出了具體的版本號,91.8%(146 篇)列出了開發商名稱。這些基本資訊讓讀者至少能知道該研究是用 OpenAI 的 ChatGPT 還是 Google 的 Gemini 跑出來的數據。
然而,當涉及到影響模型知識邊界的關鍵資訊時,報告品質呈現斷崖式下跌。僅有 54.1%(86 篇)的研究明確交代了訓練資料的截止日期(cutoff date)。這在醫學領域是極度危險的遺漏,因為臨床指引與藥物核准每年都在更新,如果不知道模型的知識停留在哪一年,我們根本無從判斷其給出的診斷建議是否過時。更令人擔憂的是,只有 6.3%(10 篇)的研究說明了模型是否具備存取網路資訊的能力,例如是否使用了 RAG(檢索增強生成,讓 AI 抓取外部最新資料來回答的技術)。同時,僅 50.9%(81 篇)提供了實際向模型下達指令的確切日期。
至於查核表的第二大項「隨機性處理」,更是 LLM 研究的重災區。只有 15.1%(24 篇)的研究對隨機性相關因素提供了清晰的文件說明。高達 84.3% 的論文完全沒有報告他們對同一個問題嘗試提問了幾次。在排除一篇特別指明只測試一次的研究後,剩下的 158 篇中,僅有 12.7%(20 篇)對重複提問的結果進行了可靠度分析(reliability analysis)。這意味著多數論文呈現的高準確率,可能是模型在多次亂數生成中「運氣最好」的那一次,完全缺乏重現性。
Table 2 呈現放射科與其他科別的顯著 P 值差異
作者團隊特別將 18 篇放射科相關研究與 141 篇其他科別研究進行了交叉比對,試圖找出不同專科在 AI 論文寫作上的習慣差異。在大部分的查核項目中,兩組表現大同小異,但有兩個項目出現了統計學上的顯著差異。第一個是「訓練資料截止日期的報告率」(項目 1-4),放射科研究的報告率僅有 27.8%(5/18),顯著低於其他科別的 57.4%(81/141),其 P 值達到 0.017。這顯示放射科領域在評估 LLM(例如讓 GPT-4V 看 X 光片)時,往往過度關注影像辨識的結果,卻忽略了交代該模型文字知識庫的時效性。
第二個顯著差異出現在「提供包含確切用語與語法的完整提示詞」(項目 3-1)。在這個環節上,放射科研究表現得異常出色,報告率高達 77.8%(14/18),大幅超越其他科別的 45.4%(64/141),P 值為 0.01。這可能歸功於放射科醫師長期受結構化報告訓練的影響,對於輸入條件的精確度有較高的要求。
若細看提示詞語法的整體細節拆解,在全部 159 篇研究中,只有 49.1%(78 篇)確保了拼字的精確性;17.6%(28 篇)描述了特殊符號的使用方式,例如使用大括號來指定 JSON(一種輕量級的資料交換格式)結構,或是用中括號作為資料佔位符;18.9%(30 篇)提到了引號、逗號與冒號的策略性排版;49.1%(78 篇)交代了空白鍵與換行符號的具體用法。這點極為關鍵,因為在大型語言模型中,一個標點符號的改變或是一個換行的增減,都可能導致模型注意力機制的偏移,進而輸出完全不同的醫療判斷。
放射科在提示詞完整度表現極佳,但忽略了模型資料截止日
測試集獨立性僅 13.2% 與提示詞優化的盲區
將焦點轉向查核表的後段項目,關於提示詞如何被系統性調用的細節(項目 4)同樣被廣泛忽略。只有 34.0%(54 篇)的研究明確說明了他們對話的架構,例如是把每個病例當作「獨立對話環節」處理,還是將多個查詢塞在同一個對話視窗中。在存取介面方面,55 篇使用網頁版公共介面,29 篇使用公開的 API(應用程式介面,讓程式碼直接呼叫模型功能的管道),另有 17 篇使用地端開源模型或機構內部的 API。此外,僅有 34.6%(55 篇)記錄了他們是採用批次同時輸入,還是透過多輪對話依序輸入測試資料。
提示詞的測試與優化過程(項目 5)也是呈現報喜不報憂的狀態。雖然有 46.5%(74 篇)的研究分享了他們創造提示詞的步驟,提到了「提示詞工程」或「迭代開發」等字眼,但只有極少數的 15.7%(25 篇)真正解釋了「為什麼選擇這組字眼而不是另一組」。多數作者並未透過比較不同版本的提示詞來論證他們最終選擇的合理性,這讓讀者難以學習與複製其成功的經驗。
最致命的統計數據落在測試資料的獨立性(項目 6)。在 159 篇頂刊研究中,竟然只有 13.2%(21 篇)明確聲明並證明他們的測試資料完全沒有被用於模型的訓練階段或提示詞優化階段。如果是從網路上抓取測試資料(共有 76 篇如此做),只有 56.6%(43 篇)提供了確切的原始網址。在機器學習領域,測試集與訓練集重疊被稱為資料洩漏(data leakage),這會導致模型表現出虛高、不真實的準確率。當超過八成的醫學 LLM 論文無法自證清白時,我們必須懷疑模型是真的學會了診斷,還是單純背下了網路上的公開題庫與病例。
| 查核項目 | 報告比例 (篇數) |
|---|---|
| 是否詳細解釋提示詞調用方式 | 34.0% (54/159) |
| 是否說明提示詞優化與用字考量 | 15.7% (25/159) |
| 是否證明測試資料絕對獨立 | 13.2% (21/159) |
| 網路測試集是否附確切 URL | 56.6% (43/76) |
資料來源:Table 2 (全體 159 篇)
臨床實務的邊界與未來 AI 論文的閱讀防身術
這篇回顧性分析毫不保留地指出了當前 LLM 臨床應用研究的共同軟肋。作者在討論環節中坦承,機器學習研究的重現性危機往往源自於不完整的記錄與模型在不同次執行間的隨機波動。即便研究人員使用了相同的程式碼,只要初始化參數或提示詞結構稍有不同,結果就可能大相逕庭。未交代訓練資料截止日與測試集獨立性,使得我們無法評估這些模型在真正未曾見過的臨床資料上,是否具備泛化能力。
這項研究本身的限制在於,MI-CLEAR-LLM 查核表主要聚焦於方法學上的可重現性與透明度,並未涵蓋 LLM 評估的其他重要面向,例如公平性、毒性、潛在偏見或是實際部署到醫院資訊系統時的相容性問題。然而,作為最基礎的底線,如果連方法學都無法被透明檢視,去談論模型的臨床效益無疑是空中樓閣。
對於忙碌的放射科醫師而言,這篇論文提供了極佳的「閱讀防身術」。未來當我們看到標榜使用多模態大模型進行 X 光或 MRI 診斷的論文時,不要只看 Abstract 裡宣稱的高 AUC 或高敏感度。我們應該直接翻到方法學或補充資料(Supplementary files),檢查三個核心指標:第一,作者有沒有附上連標點符號都完全一致的提示詞範本;第二,作者有沒有交代測試該病例時,是否清空了上下文記憶(獨立 session);第三,模型對同一個影像提問五次,是否會給出五次一致的答案(隨機性處理)。
下次看到標榜多模態大模型診斷準確率破九成的論文,先去 supplementary 找有沒有附上完整 prompt 與重複測試的信度分析,沒有就當作個案報告看。