Comparison of proprietary and fine-tuned large language models for multi-label classification of billing codes from radiology reports
與其花大錢呼叫 GPT-5,不如在院內微調 40 億參數的開源小模型。這項針對 50 萬份放射科報告的研究證實,在地模型處理真實批價的 F1 分數高達 70%,完勝所有商業大模型。
- 在未經清理的真實醫院帳單數據中,微調的 4B 小模型以 70.3% 的 F1 分數大勝 GPT-5 (58.1%)。
- 大型商業語言模型難以掌握「機構特有」的計費邏輯,其零樣本推論準確率幾乎全數掛零。
- 院內部署開源小模型可完全免除 API 流量費用,並確保敏感病患資料絕對不離開醫院防火牆。
四百億參數的 GPT-5 在處理真實世界放射科帳單時,表現居然慘輸給只有 40 億參數的在地小模型,F1 分數相差高達 12%。醫學影像報告的批價編碼(billing codes)一直是繁瑣且容易漏帳的痛點。這份來自《European Radiology》的研究證明,與其花錢呼叫雲端大模型,不如利用自家醫院的舊資料微調開源小模型,不僅準確率更高,還能完全避開病患隱私外洩的法規問題。
50 萬份報告訓練 4B 參數的輕量級模型
在德國,私立醫療保險的批價高度依賴 GOÄ 系統(德國私保批價系統,類似台灣健保支付標準),需要人工從放射科報告的瑣碎敘述中抓取對應的處置代碼。為了自動化這個極度耗時的流程,Essen 大學醫院的研究團隊回溯收集了 1999 到 2025 年間,共 124,497 位成年病患的 499,601 份放射科報告。這個龐大的真實世界資料庫包含了高達 179 萬個由人工標註的 GOÄ 批價代碼,直接作為機器學習的黃金標準(ground truth)。從病患結構來看,常見的主診斷涵蓋了心絞痛(ICD-10 I20.8)、肝惡性腫瘤、肺癌與前列腺癌等,確保了報告文本的多樣性。
考量到運算成本與歐盟嚴格的 GDPR 隱私法規,團隊並沒有一開始就將資料倒給外部的 API,而是選擇微調(fine-tuning)微軟開源的 MediPhi-Instruct 模型。這是一個僅有 40 億(4B)參數的輕量級語言模型,本身已經預先吸收了大量臨床文本。研究團隊採用五折交叉驗證(5-fold cross-validation)進行訓練,並嚴格切出 10%(約 5 萬份報告)作為保留測試集。值得一提的是,因為多數醫院的批價代碼呈現極端的「長尾分佈」(少數常規檢查佔據多數代碼),研究者特別選用 F1-micro(偏重高頻常見代碼的綜合準確度指標)來評估模型,藉此反映該系統在「減少日常行政人力」上的真實效益。
為了與市面上當紅的大型語言模型一較高下,團隊又特別從測試集中抽樣出兩組獨立對照:第一組是 500 份未經修飾的「真實世界樣本」;第二組則是排除掉特殊機構計價邏輯後的 350 份「清理後樣本」。他們設計了兩種挑戰模式:零樣本(zero-shot,不給範例直接讓模型猜)與少樣本(few-shot,在提示詞中給予標準定義與兩個正確範例),交由一位資深醫學資料科學家與擁有 15 年經驗的醫事批價控制員反覆調校提示詞。
Figure 3 真實世界樣本的 70% F1 分數防線
當我們把未經修飾的 500 份真實世界放射科報告丟給各大模型時,表現呈現了極度兩極的發展。這批資料保留了醫院獨特的檢查樣板與醫師個人的書寫習慣。從 Figure 3 與 Table 3 的數據來看,微調過的小型 MediPhi 融合模型(ensemble model)展現了壓倒性的主場優勢,其微平均 F1 分數達到 70.32% ± 1.54%。更重要的是,該模型的召回率(Recall)高達 74.05% ± 2.25%。召回率在批價情境中是命脈所在,因為「漏標代碼」直接等同於醫院的營收損失,而這個 4B 參數的模型有效守住了這道防線。
相較之下,那些動輒千億參數的商業巨獸在零樣本測試中幾乎全軍覆沒。GPT-5 的零樣本 F1 分數僅有 11.04% ± 1.17%,而 Google 的 Gemini 2.5 Flash 更是趨近於零(0.002%)。即使改用提供少數範例的 few-shot 提示詞,表現最好的 Gemini 2.5 Flash 也只把 F1 分數拉抬到 58.22% ± 1.50%,GPT-5 則是 58.15% ± 1.58%。經過統計配對 t 檢定證實,自家微調的 4B 模型在準確率、精準度與召回率上,皆以極顯著的差異(p < 0.001)擊敗了目前檯面上最強的商業大模型。這證明了在充滿機構慣用語與特殊計費規則的環境中,吸收過在地資料的小模型遠比「通用型聰明」來得管用。
若進一步拆解各類影像排程的表現,各大模型在處理常規 X 光片批價時遇到了巨大的障礙。在真實世界樣本中,諸如 Llama-3.3-70B 與 Deepseek-R1 等開源大模型的 X 光零樣本 F1 分數皆為 0%。反觀微調模型在各類別(X 光、CT、超音波、MRI)的表現相對平均,特別是在超音波的分類上,即便在嚴苛的零樣本情境下也能達到接近完美的 F1 分數。
資料來源:Table 3。在地微調模型在面對未經清理的真實醫院報表時展現絕對優勢。
Table 4 與 Figure 4 清理後樣本的局勢大逆轉
然而,當比賽規則改變,大型語言模型強大的語意理解能力立刻展現了恐怖的統治力。研究團隊在第二階段測試中,移除了 150 份高度依賴「該院特有加成計費邏輯」(例如與文本無關的單純行政附加費用)的 MRI 報告,並剔除掉 163 種純行政用途的批價代碼,整理出 350 份「清理後樣本」。這個資料集考驗的是單純的醫學文本語意轉換能力,不再參雜醫院辦公室的歷史陳規。
從 Table 4 的結果可以明顯觀察到局勢的翻轉。在這個清理過、語意更明確的資料集裡,提供 few-shot 範例的 GPT-5 以 F1 分數 89.51% ± 1.52% 奪下冠軍,緊追在後的是 Gemini 2.5 Flash(89.3%)與 Gemini 2.5 Pro(88.0%)。反觀原本稱霸的微調 MediPhi 融合模型,其 F1 分數反而落後,僅有 74.23% ± 1.41%(與 GPT-5 相比 p < 0.001),且精準度大幅下滑至 64.84%。
若檢視 Figure 5 的次群組分析,清理後的資料集中,各大 LLM 只要搭配 few-shot 提示詞,在 X 光片批價的 F1 分數都能迅速從 0% 飆升到 80% 甚至 90% 以上。這種高度反差凸顯了真實臨床工作流的複雜本質:「放射科醫師寫下的醫學發現」跟「行政部門最終核定的計費邏輯」往往是兩套平行的語言。GPT-5 擅長精準解讀前者,但唯有吃過自家醫院幾十萬筆老舊帳單的微調模型,才能真正掌握後者的弦外之音。
| 模型 (測試條件) | F1 分數 (微平均) | 精準度 (Precision) | 召回率 (Recall) |
|---|---|---|---|
| GPT-5 (Few-shot) | 89.5% | 88.4% | 90.6% |
| Gemini 2.5 Flash (Few-shot) | 89.3% | 87.8% | 90.9% |
| 微調模型 (Ensemble) | 74.2% | 64.8% | 86.8% |
| GPT-5 (Zero-shot) | 6.8% | 6.1% | 7.6% |
資料來源:Table 4。移除醫院特有計費邏輯後,大模型展現了強大的純粹語意理解力。
歷史偏誤與單一醫學中心的潛在限制
這份研究雖然極具說服力地展示了在地部署小模型的龐大潛力,但作者在討論區也誠實交代了幾個無法迴避的結構性限制。首先,用來訓練這 40 億參數模型的「黃金標準」,本身就是過去 20 多年來由該院行政人員與醫師人工輸入的批價結果。這意味著模型學到的不僅是正確的醫療對應關係,同時也把人類過去的編碼習慣,甚至「少報、漏報」的歷史偏誤(historical documentation biases)給照單全收了。如果當年某個主治醫師特別不愛申報某項超音波耗材,模型現在就會理所當然地繼承這個壞習慣。
其次,本研究的所有資料皆來自單一大學醫學中心。為了進行測試比對,團隊也刻意將放射科報告進行去識別化,甚至在抽樣時排除了許多缺乏變化的「正常報告樣板」(normal-finding templates)。這種作法雖然確保了語言的多樣性,但也使得訓練資料的文本結構些微偏離了最原始的門診樣貌,且難以斷言這套模型搬到另一家社區醫院時還能保持同樣的準確度。
放射部門建置自動批價系統的在地決策
對於正為放射科各項健保申報、自費醫材與特約門診批價而頭痛的科室主管來說,這篇論文提供了一個極具成本效益的戰略藍圖。在決定導入 AI 輔助批價時,我們不該盲目迷信最昂貴的商業大模型 API。將龐大的就醫紀錄與病患特徵傳送到外部雲端,不僅會踩到醫療資料不能出院的法規紅線,每個月按 token 流量計算的 API 呼叫費也是一筆可觀的持續性開銷。
實務上最合理的落地架構,是利用科內過去五到十年的 PACS 報告,與 HIS 系統內的批價代碼進行配對,利用院內既有的伺服器與單張高階顯示卡,微調一個 4B 到 8B 等級的開源模型。在系統上線初期,將它定位為「批價代碼的草稿生成器」(pre-screening system)。它可以自動掃描每天成千上萬份的常規 X 光與標準 CT 報告,把最容易漏掉的顯影劑注射、多部位掃描加成自動帶出,最後再交由醫療費用審查人員進行最終放行。透過這種「Human-in-the-loop」的協作模式,既能接住常規檢查的漏網之魚,又能把寶貴的人力釋放去處理罕見複雜病例的申報挑戰。
別把醫院特有的計價潛規則外包給昂貴的雲端大模型;一台院內伺服器跑微調小模型,才是守住批價營收與病患隱私的最優解。