Comparison of proprietary and fine-tuned large language models for multi-label classification of billing codes from radiology reports

View Original ↗
AI 導讀 academic AI 重要性 4/5

與其花大錢呼叫 GPT-5,不如在院內微調 40 億參數的開源小模型。這項針對 50 萬份放射科報告的研究證實,在地模型處理真實批價的 F1 分數高達 70%,完勝所有商業大模型。

  • 在未經清理的真實醫院帳單數據中,微調的 4B 小模型以 70.3% 的 F1 分數大勝 GPT-5 (58.1%)。
  • 大型商業語言模型難以掌握「機構特有」的計費邏輯,其零樣本推論準確率幾乎全數掛零。
  • 院內部署開源小模型可完全免除 API 流量費用,並確保敏感病患資料絕對不離開醫院防火牆。

四百億參數的 GPT-5 在處理真實世界放射科帳單時,表現居然慘輸給只有 40 億參數的在地小模型,F1 分數相差高達 12%。醫學影像報告的批價編碼(billing codes)一直是繁瑣且容易漏帳的痛點。這份來自《European Radiology》的研究證明,與其花錢呼叫雲端大模型,不如利用自家醫院的舊資料微調開源小模型,不僅準確率更高,還能完全避開病患隱私外洩的法規問題。

50 萬份報告訓練 4B 參數的輕量級模型

在德國,私立醫療保險的批價高度依賴 GOÄ 系統(德國私保批價系統,類似台灣健保支付標準),需要人工從放射科報告的瑣碎敘述中抓取對應的處置代碼。為了自動化這個極度耗時的流程,Essen 大學醫院的研究團隊回溯收集了 1999 到 2025 年間,共 124,497 位成年病患的 499,601 份放射科報告。這個龐大的真實世界資料庫包含了高達 179 萬個由人工標註的 GOÄ 批價代碼,直接作為機器學習的黃金標準(ground truth)。從病患結構來看,常見的主診斷涵蓋了心絞痛(ICD-10 I20.8)、肝惡性腫瘤、肺癌與前列腺癌等,確保了報告文本的多樣性。

考量到運算成本與歐盟嚴格的 GDPR 隱私法規,團隊並沒有一開始就將資料倒給外部的 API,而是選擇微調(fine-tuning)微軟開源的 MediPhi-Instruct 模型。這是一個僅有 40 億(4B)參數的輕量級語言模型,本身已經預先吸收了大量臨床文本。研究團隊採用五折交叉驗證(5-fold cross-validation)進行訓練,並嚴格切出 10%(約 5 萬份報告)作為保留測試集。值得一提的是,因為多數醫院的批價代碼呈現極端的「長尾分佈」(少數常規檢查佔據多數代碼),研究者特別選用 F1-micro(偏重高頻常見代碼的綜合準確度指標)來評估模型,藉此反映該系統在「減少日常行政人力」上的真實效益。

為了與市面上當紅的大型語言模型一較高下,團隊又特別從測試集中抽樣出兩組獨立對照:第一組是 500 份未經修飾的「真實世界樣本」;第二組則是排除掉特殊機構計價邏輯後的 350 份「清理後樣本」。他們設計了兩種挑戰模式:零樣本(zero-shot,不給範例直接讓模型猜)與少樣本(few-shot,在提示詞中給予標準定義與兩個正確範例),交由一位資深醫學資料科學家與擁有 15 年經驗的醫事批價控制員反覆調校提示詞。

Figure 3 真實世界樣本的 70% F1 分數防線

當我們把未經修飾的 500 份真實世界放射科報告丟給各大模型時,表現呈現了極度兩極的發展。這批資料保留了醫院獨特的檢查樣板與醫師個人的書寫習慣。從 Figure 3 與 Table 3 的數據來看,微調過的小型 MediPhi 融合模型(ensemble model)展現了壓倒性的主場優勢,其微平均 F1 分數達到 70.32% ± 1.54%。更重要的是,該模型的召回率(Recall)高達 74.05% ± 2.25%。召回率在批價情境中是命脈所在,因為「漏標代碼」直接等同於醫院的營收損失,而這個 4B 參數的模型有效守住了這道防線。

相較之下,那些動輒千億參數的商業巨獸在零樣本測試中幾乎全軍覆沒。GPT-5 的零樣本 F1 分數僅有 11.04% ± 1.17%,而 Google 的 Gemini 2.5 Flash 更是趨近於零(0.002%)。即使改用提供少數範例的 few-shot 提示詞,表現最好的 Gemini 2.5 Flash 也只把 F1 分數拉抬到 58.22% ± 1.50%,GPT-5 則是 58.15% ± 1.58%。經過統計配對 t 檢定證實,自家微調的 4B 模型在準確率、精準度與召回率上,皆以極顯著的差異(p < 0.001)擊敗了目前檯面上最強的商業大模型。這證明了在充滿機構慣用語與特殊計費規則的環境中,吸收過在地資料的小模型遠比「通用型聰明」來得管用。

若進一步拆解各類影像排程的表現,各大模型在處理常規 X 光片批價時遇到了巨大的障礙。在真實世界樣本中,諸如 Llama-3.3-70B 與 Deepseek-R1 等開源大模型的 X 光零樣本 F1 分數皆為 0%。反觀微調模型在各類別(X 光、CT、超音波、MRI)的表現相對平均,特別是在超音波的分類上,即便在嚴苛的零樣本情境下也能達到接近完美的 F1 分數。

真實世界樣本:小模型與商業大模型 F1 分數對決

資料來源:Table 3。在地微調模型在面對未經清理的真實醫院報表時展現絕對優勢。

Table 4 與 Figure 4 清理後樣本的局勢大逆轉

然而,當比賽規則改變,大型語言模型強大的語意理解能力立刻展現了恐怖的統治力。研究團隊在第二階段測試中,移除了 150 份高度依賴「該院特有加成計費邏輯」(例如與文本無關的單純行政附加費用)的 MRI 報告,並剔除掉 163 種純行政用途的批價代碼,整理出 350 份「清理後樣本」。這個資料集考驗的是單純的醫學文本語意轉換能力,不再參雜醫院辦公室的歷史陳規。

從 Table 4 的結果可以明顯觀察到局勢的翻轉。在這個清理過、語意更明確的資料集裡,提供 few-shot 範例的 GPT-5 以 F1 分數 89.51% ± 1.52% 奪下冠軍,緊追在後的是 Gemini 2.5 Flash(89.3%)與 Gemini 2.5 Pro(88.0%)。反觀原本稱霸的微調 MediPhi 融合模型,其 F1 分數反而落後,僅有 74.23% ± 1.41%(與 GPT-5 相比 p < 0.001),且精準度大幅下滑至 64.84%。

若檢視 Figure 5 的次群組分析,清理後的資料集中,各大 LLM 只要搭配 few-shot 提示詞,在 X 光片批價的 F1 分數都能迅速從 0% 飆升到 80% 甚至 90% 以上。這種高度反差凸顯了真實臨床工作流的複雜本質:「放射科醫師寫下的醫學發現」跟「行政部門最終核定的計費邏輯」往往是兩套平行的語言。GPT-5 擅長精準解讀前者,但唯有吃過自家醫院幾十萬筆老舊帳單的微調模型,才能真正掌握後者的弦外之音。

Table 4 清理後樣本表現:語意純化後的局勢大逆轉
模型 (測試條件)F1 分數 (微平均)精準度 (Precision)召回率 (Recall)
GPT-5 (Few-shot)89.5%88.4%90.6%
Gemini 2.5 Flash (Few-shot)89.3%87.8%90.9%
微調模型 (Ensemble)74.2%64.8%86.8%
GPT-5 (Zero-shot)6.8%6.1%7.6%

資料來源:Table 4。移除醫院特有計費邏輯後,大模型展現了強大的純粹語意理解力。

歷史偏誤與單一醫學中心的潛在限制

這份研究雖然極具說服力地展示了在地部署小模型的龐大潛力,但作者在討論區也誠實交代了幾個無法迴避的結構性限制。首先,用來訓練這 40 億參數模型的「黃金標準」,本身就是過去 20 多年來由該院行政人員與醫師人工輸入的批價結果。這意味著模型學到的不僅是正確的醫療對應關係,同時也把人類過去的編碼習慣,甚至「少報、漏報」的歷史偏誤(historical documentation biases)給照單全收了。如果當年某個主治醫師特別不愛申報某項超音波耗材,模型現在就會理所當然地繼承這個壞習慣。

其次,本研究的所有資料皆來自單一大學醫學中心。為了進行測試比對,團隊也刻意將放射科報告進行去識別化,甚至在抽樣時排除了許多缺乏變化的「正常報告樣板」(normal-finding templates)。這種作法雖然確保了語言的多樣性,但也使得訓練資料的文本結構些微偏離了最原始的門診樣貌,且難以斷言這套模型搬到另一家社區醫院時還能保持同樣的準確度。

放射部門建置自動批價系統的在地決策

對於正為放射科各項健保申報、自費醫材與特約門診批價而頭痛的科室主管來說,這篇論文提供了一個極具成本效益的戰略藍圖。在決定導入 AI 輔助批價時,我們不該盲目迷信最昂貴的商業大模型 API。將龐大的就醫紀錄與病患特徵傳送到外部雲端,不僅會踩到醫療資料不能出院的法規紅線,每個月按 token 流量計算的 API 呼叫費也是一筆可觀的持續性開銷。

實務上最合理的落地架構,是利用科內過去五到十年的 PACS 報告,與 HIS 系統內的批價代碼進行配對,利用院內既有的伺服器與單張高階顯示卡,微調一個 4B 到 8B 等級的開源模型。在系統上線初期,將它定位為「批價代碼的草稿生成器」(pre-screening system)。它可以自動掃描每天成千上萬份的常規 X 光與標準 CT 報告,把最容易漏掉的顯影劑注射、多部位掃描加成自動帶出,最後再交由醫療費用審查人員進行最終放行。透過這種「Human-in-the-loop」的協作模式,既能接住常規檢查的漏網之魚,又能把寶貴的人力釋放去處理罕見複雜病例的申報挑戰。

別把醫院特有的計價潛規則外包給昂貴的雲端大模型;一台院內伺服器跑微調小模型,才是守住批價營收與病患隱私的最優解。

Abstract

Objectives While large language models (LLMs) have shown promise in medical text analysis, their application in automated medical billing code extraction remains underexplored, particularly for the German medical fee schedule system (GOÄ). Therefore, an LLM was fine-tuned to perform multi-label classification of GOÄ codes from radiology reports automatically, and its performance was compared with state-of-the-art commercial and open-source LLMs. Materials and methods Following ethics committee approval, we analyzed 499,601 radiology reports from 124,497 patients, containing 1,799,971 manually identified GOÄ codes as ground truth. The MediPhi-Instruct 4B model was fine-tuned using five-fold cross-validation. Performance was evaluated on the hold-out test set and compared against GPT-5, GPT-4.1, GPT-oss, Kimi-K2, Deepseek-R1, Deepseek-V3, Gemini 2.5, Llama-70B, and Qwen-3 LLMs on a subset of 500 anonymized and 350 cleaned reports using zero-shot and few-shot prompting techniques. Results The fine-tuned model achieved an accuracy of 77.15% ± 0.47% and a micro-average F1-score of 87.79% ± 0.31% on the hold-out test set. On a subset of 500 real-world samples, our models outperformed the best-performing LLM, Gemini 2.5 Flash, with an F1-score of 70.32% ± 1.54% compared to 58.22% ± 1.50% (p &lt; 0.001). For the cleaned dataset of 350 samples, GPT-5 achieved the best F1-score of 89.51 ± 1.52% and outperformed the fine-tuned models (p &lt; 0.001). Conclusions Fine-tuned LLMs can effectively automate GOÄ code classification from radiology reports, with the potential of outperforming commercial LLMs. This approach shows promise for improving billing efficiency and accuracy in healthcare settings, though manual verification is still recommended. Key Points Question LLMs with high parameters possess medical knowledge, but how effective are they at predicting billing codes from radiology reports compared to smaller, fine-tuned models? Finidngs A fine-tuned ensemble model achieved competitive results and can outperform larger, proprietary LLMs. Clinical relevance Smaller, fine-tuned models offer an efficient alternative to proprietary LLMs in generating billing codes and can be integrated to assist clinical coding. This technology has the potential to transform clinical billing procedures, but its use should be overseen by qualified professional personnel. Graphical Abstract