Minimum Reporting Items for Clear Evaluation of Accuracy Reports of Large Language Models in Healthcare (MI-CLEAR-LLM): 2025 Updates.

Park Seong Ho, Suh Chong Hyun, Lee Jeong Hyun, Tejani Ali S, You Seng Chan, et al.

View Original ↗
AI 導讀 academic AI 重要性 4/5

即使缺漏抽血與血壓數據,GPT-4 預測十年心血管風險依然與 Framingham 量表不相上下,顛覆臨床預測邏輯。

  • 在英國五萬人世代中,GPT-4 預測 10 年 MACE 的 AUROC 達 0.725,與傳統 Framingham 量表表現相當。
  • 即便刻意刪除所有的膽固醇等血脂實驗室數據,GPT-4 的預測 AUROC 僅微幅下降至 0.722,展現驚人容錯率。
  • 將 GPT-4 的 Temperature 參數設定為 0.4,能有效避免分數過度集中的狀況,達到穩定且細緻的存活曲線分層。

即使把總膽固醇、高低密度脂蛋白與三酸甘油酯等核心抽血數據全部刪除,GPT-4 預測十年內心血管重大不良事件的精準度依然高達 AUROC 0.722,幾乎沒有因為變數短缺而掉分。這完全顛覆了我們過去對風險預測模型必須仰賴完整結構化參數的既有認知,比起只要缺一項數值就無法計算的傳統量表,大型語言模型展示了在殘缺病歷資料中進行邏輯推演與補償的驚人彈性。

跳脫傳統迴歸公式:語言模型預測心血管風險的邏輯

心血管疾病(CVD)依然是全球發病率與死亡率的榜首,而準確預測個體在未來的發病風險,是介入預防的核心。放射科醫師在日常判讀胸部電腦斷層時,經常會意外發現冠狀動脈鈣化或主動脈粥狀硬化,但在報告中僅能給予定性描述,難以快速轉換為具體的臨床風險分數。目前臨床最廣泛使用的工具,包含 Framingham 風險分數與 ACC/AHA(美國心臟病學會 / 美國心臟協會)風險量表。這些傳統模型基於嚴格的多元邏輯斯迴歸建立,要求臨床醫師輸入一組完整的特定變數,透過固定的數學方程式來算出最終的機率值。

然而,近年來 LLM(大型語言模型,具備千億參數並以神經網路架構為基礎的自然語言處理系統)如 GPT-4 展現了跨領域的推理能力。GPT 模型的運作機制與傳統量表截然不同,它並非進行單純的數學運算,而是透過將詞彙向量化,學習並識別龐大文本中的模式,進而以機率預測下一個最合理的字詞。雖然我們已經知道 ChatGPT 有能力通過美國醫師執照考試(USMLE),但在具體的量化預測任務上,尤其是精準估算十年心血管風險,其真實效能仍是一片空白。

更重要的是,語言模型存在著根深蒂固的問題。由於其基於機率生成的本質,給予相同的提示詞(Prompt)可能會產生截然不同的輸出結果,這種不穩定性在講求嚴謹的醫療場景中極度致命。此外,GPT-4 的訓練語料庫宛如黑盒子,缺乏透明度,我們無法確定它在不同種族或群體之間是否會產生嚴重的偏差。本研究因此直接切入這個痛點,試圖以真實世界的大規模縱向數據,量化驗證 GPT-4 在心血管風險預測上的穩定度與準確度。

橫跨英韓雙族群:UK Biobank 與 KoGES 世代的實驗設計

為了確保分析結果具備跨種族的泛化能力,研究團隊選用了兩個截然不同的資料庫。第一個是英國的 UK Biobank,這是一個包含近 50 萬名 40 至 69 歲參與者的超大型前瞻性世代。在排除資料缺失與已經發生過心血管事件的患者後,研究者隨機抽取了 47,468 名參與者作為分析對象。第二個驗證世代則是韓國的 KoGES(韓國基因體與流行病學研究),經過類似的篩選條件後,共納入 5,718 名受試者。

在預測目標方面,本研究將終點設定為 10 年內發生的 MACE(心血管重大不良事件,複合性指標包含心肌梗塞與缺血性中風)。UK Biobank 世代中有 3,136 人(6.6%)在十年內發生 MACE;而 KoGES 世代則有 176 人(3.1%)。觀察 Table 1 的基礎特徵可以發現,無論在哪個世代,被 GPT-4 歸類為高風險的族群,都具備年齡較大、男性比例極高、高血壓用藥比例偏高、脂質分佈不佳等典型特徵,且實際發生 MACE 的比例也顯著高於低風險組(p < 0.001)。

在實際操作上,研究者將受試者的年齡、性別、糖尿病史、血壓、吸菸狀態與各項膽固醇數值等表格型資料,轉換成一段結構化的英文句子。隨後,利用提示詞要求 GPT-4 僅輸出一個具體的風險百分比數字,拒絕任何冗長的文章解釋。取得這個數字後,研究團隊將預測結果與病患實際十年間的存活狀態進行比對,並與傳統的 Framingham 及 ACC/AHA 量表進行效能較量。

Table 2 與 Figure 2 展現 GPT-4 逼近傳統風險量表的表現

當我們仔細檢視 Table 2 所列出的各項預測指標,結果顯示 GPT-4 已經能夠與人類積累數十年的流行病學模型平起平坐。在 UK Biobank 世代中,表現最佳的是 ACC/AHA 風險分數(AUROC 0.733),緊接著是 Framingham 風險分數(AUROC 0.728),而 GPT-4 則以 AUROC 0.725 緊隨其後,GPT-3.5-turbo 則敬陪末座(AUROC 0.706)。透過 DeLong test 進行統計檢定,GPT-4 與 Framingham 之間並未達統計顯著差異(p = 0.120),證實兩者效能相當。

在韓國的 KoGES 世代中,整體模型的預測力皆有所下降,但趨勢保持一致。Framingham 的 AUROC 為 0.675,ACC/AHA 為 0.674,GPT-3.5-turbo 為 0.671,GPT-4 為 0.664。統計上,GPT-4 與兩大傳統模型的表現依然沒有顯著差異(p = 0.145 與 p = 0.166)。此外,若探討模型輸出結果的相關性,Figure 2 中的 Pearson 相關係數(Pearson's r)顯示,GPT-4 預估的分數與 ACC/AHA 分數具有高度一致性,在英韓兩大世代分別達到 0.8820.867 的高度正相關。

為了進一步確認這個風險分數的臨床實用性,研究團隊繪製了 Figure 3 的 Kaplan-Meier 存活曲線。他們將 GPT-4 算出的風險百分比套用傳統閾值:小於 10% 為低風險、10% 到 20% 為中風險、大於 20% 為高風險。結果顯示,三條存活曲線出現了極為完美的獨立分層,所有的兩兩比較在經過 post-hoc Bonferroni correction 後皆達統計顯著意義,這意味著 GPT-4 給出的分數確實能反映病患在真實世界中的發病時間軌跡。

UK Biobank 世代:GPT-4 與傳統風險量表效能比較

資料來源:Table 2 (GPT-4 與 Framingham 之間 p=0.120,無顯著差異)

Table S1 缺漏變數實驗與 Temperature 設定的輸出變異性

這份研究最引人入勝的部分,在於作者針對語言模型特性所進行的壓力測試與參數調整。在日常臨床實務中,我們很少能拿到百分之百完整的病歷,這也是傳統風險計算器的最大死穴——一旦缺少低密度脂蛋白(LDL)或血壓數值,系統就會拒絕運算或要求強制插補。為了測試 GPT-4 的能耐,研究團隊在 UK Biobank 世代中刻意隱藏了特定的關鍵變數。

從 Table S1 的數據來看,當輸入的文字中完全刪除總膽固醇、HDL、LDL 與三酸甘油酯等實驗室抽血數據時,GPT-4 的 AUROC 僅從 0.725 微幅下滑至 0.722,而 AUPRC(精確率與召回率曲線下面積,更適合衡量極端不平衡數據)也僅從 0.145 降至 0.141。接著,他們嘗試刪除收縮壓、舒張壓與 BMI 等理學檢查數據,AUROC 也依然維持在 0.715 的高水準。這種強韌的表現證實,GPT-4 能夠透過現有文本中的其他線索(如年齡、性別、用藥史),自行補足或推論缺失維度的風險權重,展現了極高的容錯能力。

另一個關鍵的發現是模型超參數(Hyperparameter)的設定。GPT 提供了一個名為 Temperature(控制模型回答隨機性與創造力數值的參數)的選項。研究測試後發現,若將其設得過低,GPT 的回答會過度收斂,導致預測分數出現所謂的「streaking」現象(大量病患的分數過度集中在特定幾個數值上),這會嚴重損害對病患進行細緻風險分層的能力。經過反覆測試,研究將 Temperature 訂為 0.4,這是一個既能壓抑回答變異度、穩定輸出標準差,又能最大化 AUROC 表現的最佳甜蜜點。

Table S1:GPT-4 在缺漏關鍵變數下的強韌表現
測試條件AUROCAUPRC
包含完整病歷變數 (Baseline)0.7250.145
刪除全部血脂數據 (總膽/HDL/LDL/TG)0.7220.141
刪除全部理學檢查 (血壓/BMI)0.7150.134

於 UK Biobank 世代之測試結果,展現不依賴完整結構化數據的彈性

放射科從影像報告銜接 AI 臨床預測的邊界與侷限性

雖然本研究展示了語言模型強大的預測潛力,但作者也坦承了幾個不容忽視的限制。首先,受限於呼叫 OpenAI API 的按字節(Token)計費成本高昂,研究團隊無法對 50 萬人的完整世代進行運算,只能隨機抽取 5 萬名樣本,這可能引入一定程度的選擇偏誤。其次,實驗全程僅使用了最基本的 Zero-shot prompt(未給予任何範例,直接要求模型作答),未來若導入 Few-shot 學習或 Chain of Thought(思維鏈)等進階提示詞工程,表現極可能進一步提升。

對放射科醫師而言,最需要警惕的是模型黑盒子效應。我們無法得知 GPT-4 在預訓練階段,是否已經將 ACC/AHA 的臨床指引或相關病歷特徵徹底背誦下來,這使得我們難以釐清它究竟是真正在進行醫學推理,還是單純的模式匹配回憶。然而,這項技術的彈性特質為放射科帶來了極大的想像空間。我們每天產出大量的非結構化自由文本(Free-text)影像報告,未來只需將報告結論連同急診會診單上破碎的病史,一股腦丟給 LLM,就能在毫秒間產出一個初步的臨床風險預測,不僅省去手動輸入計算器的麻煩,也能彌補病歷不全時的風險評估空窗。

下次在非心臟掃描的電腦斷層中意外發現嚴重冠狀動脈鈣化時,不妨將現有零碎的病患文本丟給語言模型,它在資料殘缺下展現的推斷能力,可能會比你想像中更接近真實的心血管風險。

Abstract

Recent systematic reviews have raised concerns about the quality of reporting in studies evaluating the accuracy of large language models (LLMs) in medical applications. Incomplete and inconsistent reporting hampers the ability of reviewers and readers to assess study methodology, interpret results, and evaluate reproducibility. To address this issue, the MInimum reporting items for CLear Evaluation of Accuracy Reports of Large Language Models in healthcare (MI-CLEAR-LLM) checklist was developed. This article presents an extensively updated version. While the original version focused on proprietary LLMs accessed via web-based chatbot interfaces, the updated checklist incorporates considerations relevant to application programming interfaces and self-managed models, typically based on open-source LLMs. As before, the revised MI-CLEAR-LLM focuses on reporting practices specific to LLM accuracy evaluations: specifically, the reporting of how LLMs are specified, accessed, adapted, and applied in testing, with special attention to methodological factors that influence outputs. The checklist includes essential items across categories such as model identification, access mode, input data type, adaptation strategy, prompt optimization, prompt execution, stochasticity management, and test data independence. This article also presents reporting examples from the literature. Adoption of the updated MI-CLEAR-LLM can help ensure transparency in reporting and enable more accurate and meaningful evaluation of studies.