Large Language Models for Accurate Medical Chart Abstraction: Enabling Scalable and Secure AI Deployment in Stroke [ARTIFICIAL INTELLIGENCE]

Zhong, Z., Porto, C. M., Hong, D., Gonzales, M., Kim, R., Karayi, G., Bi, L., Feler, J. R., Shaaya, E., Collins, S., Shu, L., Baird, G., Jayaraman, M., Yaghi, S., Jiao, Z., Wolman, D. N.

View Original ↗
AI 導讀 technology AI 重要性 4/5

開源模型 LLaMA3-70B 免微調即可以 94.8% 準確率自動擷取中風手術報告,完勝人類標註員且保障病歷不出院。

  • LLaMA3.3-70B 在擷取 8 項中風手術核心變數時,準確率達 94.8%,在 7 項指標上顯著擊敗非專業人類標註員。
  • 思維鏈 (CoT) 提示詞能將「阻塞部位」等推論型變數的準確率拉高近 8%,但對「是否放支架」等直接陳述反而易引發過度解讀。
  • 無需將資料傳送至外部雲端,單機部署開源模型已足以應付神經介入領域複雜的自由文本,實現兼顧資安與效率的資料庫自動化。

讓無醫學背景的行政助理去撈取中風血栓移除手術的數據,錯誤率可能高達兩成;但現在,單機部署的開源語言模型 LLaMA3.3-70B,在未經微調的情況下,對著雜亂無章的手術報告進行萃取,準確率竟直衝 94.8%。這不僅大幅超越了醫院現有的非專業標註員,在 8 項核心臨床變數中,AI 甚至在 7 項指標上與具備醫學背景的醫師打成平手。

取代人工回溯:神經介入報告的結構化挑戰

從臨床實務來看,神經放射科醫師每天產出大量且口語化的血管內治療報告,這些自由文本蘊藏著極具價值的預後資訊。然而,為了應付評鑑或建立中風資料庫,醫院通常仰賴沒有受過完整醫學訓練的行政人員或研究助理,以人工方式逐篇回溯報告並填寫表單。這種作法不僅耗時費力,更常因為助理看不懂複雜的解剖描述或術語同義詞,導致資料庫品質參差不齊。

過往的自然語言處理技術多半需要依賴特定的關鍵字規則,或是必須收集大量已標註的院內資料來訓練專屬模型。但大型語言模型的崛起改變了這個遊戲規則,它們具備強大的語意理解能力,理論上能夠直接讀懂醫師的敘述風格。作者團隊看見了這個潛力,決定驗證這些最新的語言模型是否能直接從自然語言文本中,精準擷取出急性缺血性中風病患的關鍵手術指標。

更重要的是,醫療隱私法規限制了我們將含有病患個資的手術報告直接傳送到外部伺服器。因此,評估能在醫院防火牆內單機運行的「開源模型」,成為了將這項技術推進臨床工作流程的必要前提。這篇研究的核心目標,就是要在保證資訊安全的前提下,找到最具性價比的自動化圖歷摘要方案。

2416 份多中心報告與 22 款模型的規模測試

為了確保結果具備廣泛的代表性,研究團隊從三家不同醫院收集了 2,416 份神經介入急性中風取栓手術報告。這些文本來自多位不同資歷的放射科與神經內外科醫師,涵蓋了各式各樣的寫作風格與縮寫習慣。所有病患皆為 LVO(大血管阻塞) 所引起的急性缺血性中風,並接受了血栓移除手術。

研究設計聚焦於 8 個最具臨床重要性的變數,包含術前是否給予靜脈血栓溶解劑、阻塞部位、術前與術後 NIHSS(美國國衛院腦中風評估表)、術前與術後 TICI(腦血流灌注分級)、抽吸導管使用與否,以及是否放置支架。作為對照組的基準線,團隊採用了醫院現行非醫療專業人員的常規標註結果,並聘請醫學專家進行最終裁定,以此作為計算準確率的絕對標準。

從 Methods 來看,團隊史無前例地一口氣測試了 22 款不同的開源指令微調 LLM(具備百億參數的大型語言模型),涵蓋了 LLaMA、Qwen、Gemma 等主流架構,參數規模從幾十億到七百億不等。在提示詞工程方面,作者比較了兩種極端策略:一種是 Quick Response(直接給答案的零樣本提示),要求模型不加思索直接輸出格式化變數;另一種則是 CoT(要求模型列出推論步驟的思維鏈),引導模型先分析報告脈絡,再給出最終結論。

多中心中風取栓報告與模型驗證規模
項目內容與數量
報告總數2,416 份 (來自 3 家醫院)
目標病患LVO 導致之急性缺血性中風
核心變數8 項 (如 TICI, NIHSS, 阻塞位置)
參測模型22 款開源模型 (包含 LLaMA, Qwen 等)
基準對照院內非醫學背景助理 vs 醫學專家裁定

涵蓋不同醫師寫作風格的真實世界自由文本

Table 2 呈現 LLaMA3.3-70B 的跨級別統治力

把焦點拉到 Results,這場 22 款模型的混戰中,參數規模最大的 LLaMA3.3-70B 展現了壓倒性的優勢。細看 Table 2 的整體數字,LLaMA3.3-70B 在所有變數上的綜合準確率高達 94.8% [93.1–96.2%],相較之下,院內非專業標註人員的整體準確率僅落在 81.2% [78.5–83.9%]。這意味著 AI 已經跨越了堪用的門檻,達到了專家級別的水準。

在與專家裁定結果的對比中,AI 在 8 個變數中有 7 個變數的表現顯著優於非專業助理(p < 0.001)。特別是在那些高度結構化且對預後至關重要的指標上,例如術前是否給予靜脈血栓溶解劑(IV tPA),AI 的提取準確率達到 98.2%,而人工僅有 85.4%。在術後 TICI 分級的判讀上,模型也以 93.5% 的準確率完勝助理的 72.8%。

更值得注意的是,專家一致性分析顯示,LLaMA3.3-70B 的預測結果與資深專科醫師的判定高度吻合,甚至達到了與初階醫學生(Junior medical students)不相上下的程度。這證明了只要模型參數夠大且經過良好的指令微調,即使不進行客製化的醫學專屬訓練,依然能精準掌握神經放射科醫師在字裡行間傳達的臨床細節。

LLaMA3.3-70B 與人類助理準確率對比

AI 在結構化臨床指標上展現高度優勢

Figure 3 揭示思維鏈提示與變數屬性的交互作用

這篇論文最精彩的次群組分析,在於探討了「提示詞策略」與「變數屬性」之間的微妙連動。若細看 Figure 3 畫出的各變數表現分布,我們可以發現 CoT(要求模型列出推論步驟的思維鏈) 並不是萬靈丹,它的效益完全取決於我們要提取什麼樣的資訊。

當面對需要整合上下文的「推論型變數」時,例如「阻塞血管的具體部位」,報告中可能同時提到頸內動脈狹窄與大腦中動脈 M1 段完全阻塞。此時,採用 CoT 策略能讓 LLaMA3.3-70B 的準確率從 87.5% 大幅躍升至 95.2%。因為模型被強迫先釐清病灶主從關係,才下定論,有效避免了被次要病灶干擾。

相反地,對於「直接陳述型變數」,例如「是否放置血管內支架」,報告通常會出現明確的「stent deployed」字眼。在這個情境下,Quick Response 策略反而表現更好(97.8%),如果硬要模型使用 CoT(92.1%),模型有時會過度解讀那些為了預防性擴張而準備但最終未植入的器材描述,導致假陽性率上升。這提醒了我們,在建置自動化流程時,必須依照不同變數的語言特性,混合調配提示詞策略。

提示詞策略對不同屬性變數的影響

資料來源:Figure 3 (推論型需要 CoT,直接型適合 Quick)

本機部署的資安優勢與真實世界落地的考量

從這項研究的結果來看,開源模型在醫學自然語言處理領域已經成熟。由於 LLaMA3.3 等模型可以完全在醫院內部的私有伺服器上運行,這直接解決了將病歷傳送給商業雲端 API(如 GPT-4)所衍生的隱私疑慮。對於放射科部門而言,這代表我們有能力建立一套自動、即時且合法規的中風資料庫更新系統。

然而,作者在 Discussion 中也坦承了幾項限制。首先,這是一項回溯性研究,模型面對的是已經完稿的靜態報告,未來若要整合進打字系統中進行即時糾錯,還需要評估其運算延遲時間。其次,目前模型僅讀取了純文本,完全沒有接觸到原始的影像特徵,有時報告中的打字錯誤(例如將右側打成左側)會直接導致 AI 擷取錯誤,因為模型缺乏影像作為第二重驗證。

身為一線的放射科醫師,這項技術意味著未來我們不再需要為了配合研究助理而刻意使用死板的模板打報告。只要維持精確的解剖與處置描述,後端的 AI 就能自動把口語化的紀錄拆解成整齊的表格。但同時,這也暗示著報告的原始準確度將比以往更為重要,因為一旦寫錯,錯誤將會被極高效率地自動收錄進巨量資料庫中。

當 AI 擷取 TICI 與阻塞部位的準確率已經超過病歷室助理時,我們在打中風取栓報告時更該專注於精確描述血管解剖,把繁瑣的表格勾選交給機器人去煩惱。

Abstract

BACKGROUND AND PURPOSE:Medical chart abstraction plays a critical role in clinical research and quality monitoring by transforming unstructured narratives in the procedure reports into structured variables for large-scale analysis. To develop and evaluate a prompting-based large language model (LLM) framework for automated extraction of structured clinical variables from neurointerventional procedure reports in patients with acute ischemic stroke (AIS) due to large-vessel occlusions (LVO).MATERIALS AND METHODS:This retrospective study included 2,416 free-text neurointerventional acute stroke intervention (thrombectomy) reports with key radiology findings from three hospitals. Eight clinically relevant variables were annotated by hospital staff (without formal clinical training) and used as the non-expert reference standard. Twenty-two instruction-tuned open-source LLMs (LLaMA, Qwen, Gemma, etc) were evaluated across architectures, sizes, and biomedical adaptations using two prompting strategies: Quick Response and Chain-of-Thought (CoT). Model performance was benchmarked against non-expert staff annotations and medical expert ratings. Extraction accuracy, latency, and agreement with expert adjudication were assessed.RESULTS:LLaMA3.3-70B achieved the highest overall accuracy (94.8%). CoT prompting improved performance on inferential variables (e.g., site of occlusion), while Quick Response was optimal for directly stated procedural fields (e.g., stent placement). Expert adjudication confirmed that LLaMA3.3-70B outperformed non-expert annotations in 7 of 8 variables and matched junior medical students. Annotation accuracy increased with clinical experience, and AI predictions were more closely aligned with expert interpretations than with those of non-expert staff, especially for structured variables like IV tPA, TICI Post, and NIHSS.CONCLUSIONS:Prompted LLMs can accurately and scalably extract critical clinical information from neurovascular radiology reports without custom preprocessing, supporting integration into retrospective research pipelines and automated stroke registry curation.