慕尼黑工大研究：對 56 個臨床關鍵詞加重訓練損失權重，10% 眼科資料即可超越 100% 資料的無加權基準模型

AI 導讀 technology AI 重要性 4/5

token 重加權損失函數在 AMD 分期任務中，讓 10% 訓練資料的表現超越 100% 資料的標準訓練基準
在多數資料規模下，加權損失的增益強過「資料量擴大 3 倍」，直接降低醫療標註成本需求
診斷型關鍵詞（22 詞）加權效果優於量化型，生物標誌詞彙是醫療報告生成品質的核心槓桿

僅用 10% 的眼科 OCT 訓練資料，搭配一個調整過的損失函數，就能讓 AI 生成的報告品質超越用全量資料訓練的基準模型。慕尼黑工業大學（TUM）研究團隊在 2026 年 4 月發表的這項研究，切入點極為樸素：訓練語言模型時，不是每個詞的「猜錯」都一樣嚴重。

交叉熵損失的盲點：把「no drusen」和「OCT scan」視為等重錯誤

標準語言模型訓練採用「每個 token（詞元）等權重」的交叉熵損失函數（cross-entropy loss）。在這個框架下，把「OCT image」預測成「OCT scan」，和把「multiple drusen（多顆玻璃膜疣）」預測成「no drusen（無玻璃膜疣）」，會被當作同等嚴重的錯誤來懲罰。

臨床上，兩者差距天壤之別。「scan」換成「image」不過是措辭習慣，而 drusen 的有無直接影響老年性黃斑部病變（AMD）的分期判斷，關乎後續治療策略。研究者的核心假設是：訓練目標應該反映詞語的臨床重要性，而非一律平等。

這個問題在醫療領域格外突出。醫療影像的標註資料本就稀缺，眼科等次專科更是如此——高品質的影像-報告配對資料集既小又貴。如何讓每一筆訓練樣本發揮最大效益，是推動醫療 AI 落地的關鍵工程問題。

三組關鍵詞集合：56 個詞撬動整個損失函數

研究團隊將臨床關鍵詞分為三組，逐一評估加權效果。診斷型關鍵詞（κD，22 詞）對應生物標誌和疾病概念，例如 healthy、late、drusen、fluid、atrophy，直接反映眼底病理狀態。量化型關鍵詞（κQ，34 詞）描述病灶的程度或範圍，例如 thick、several、increased、multiple、moderately，左右報告對嚴重度的量化描述。組合型集合（κC，56 詞）則是前兩組的合集，測試「全部加權」是否帶來更多增益。

方法實作上，每當關鍵詞出現在目標報告中，對應的 token 位置就被賦予放大因子 γ（gamma，實驗測試 2.0、3.5、6.0 三個值）。若一個詞被 tokenizer（詞元分割器）拆成多個子詞，所有子詞 token 都同步加權。損失函數整體透過歸一化係數 Λ 維持損失尺度穩定，避免不同報告因關鍵詞密度差異而造成梯度不均。

實驗設計：91 萬個 VQA 樣本，4 折交叉驗證

視覺語言模型（VLM，vision-language model）採用三件組架構：預訓練眼底影像編碼器、Llama3-3B 語言模型，以及連接兩者的投影層。訓練以 915,229 個視覺問答（VQA）樣本進行微調，圖像編碼器凍結不動，投影層與語言模型則透過 LoRA（低秩適應，一種參數高效微調方法）更新。

評估指標採用 F1_macro，分別針對 AMD 分期（healthy / early intermediate / late wet / late dry 四類）和生物標誌偵測（drusen、視網膜色素上皮、色素上皮剝離、hyperreflective foci 等 8 項的有/無）計算。為確保結果可靠，研究對每種設定做了學習率與 γ 值的超參數搜尋，並在 4 折交叉驗證下選出最佳模型，再於獨立測試集（86 份詳細報告）評分。

10% 資料配合加權損失，AMD 分期 F1 超越 100% 基準

結果一致顯示加權損失的資料效率優勢。在幾乎所有資料規模下，加權損失均優於標準交叉熵訓練。更關鍵的一點是：在許多資料量設定下，使用加權損失的效果強過「資料量乘以 3 倍」——也就是說，有一份正確的損失函數，抵得上三倍的資料標註成本。

AMD 分期任務的表現尤為突出：僅用 10% 資料配合加權損失訓練的模型，F1 分數超越用 100% 資料訓練的無加權基準。三組關鍵詞集合均能提升各資料規模下的表現，其中診斷型關鍵詞（κD）效果最為顯著，再次印證生物標誌詞彙在醫療報告生成中的核心地位。

低工程成本換高資料效率：適用資料匱乏的醫療次專科

加權損失的邏輯並不複雜，但它切中了醫療 AI 一個長期的結構性困境。一份高品質的眼底 OCT 詳細報告，需要專科醫師花費相當時間撰寫和審核；相比之下，修改損失函數幾乎零成本——只需事先定義一份臨床關鍵詞清單，每次前向傳播多做一次 token 比對即完成加權。

相關前導工作也在同一方向蓄積：Focal loss 對困難樣本加重懲罰、UMLS（統一醫學語言系統）術語加權、預定義詞集加權，皆有文獻記錄。本研究的貢獻在於提供一個系統化的跨資料規模比較，讓研究者第一次有較完整的數據來回答：哪種加權集合最有效？在多少資料下最划算？這對眼科、罕見病放射等資料匱乏領域的 AI 開發者而言，是具體可操作的參考依據。

不增加一筆新資料，只調整損失函數的權重——56 個臨床關鍵詞 + 10% 資料，讓眼科 AI 報告的 AMD 分期準確率翻盤全量基準。

補充數據視覺化

三類臨床關鍵詞集合定義

類型	詞數 (n)	代表詞彙
診斷型 κD	22	healthy / late / drusen / fluid / atrophy
量化型 κQ	34	thick / several / increased / multiple / moderately
組合型 κC	56	κD + κQ 全部合併

Abstract

Training vision-language models (VLMs) for medical report generation is often hindered by the scarcity of high-quality annotated data. This work evaluates the use of a weighted loss function to improve data efficiency. Compared to standard cross-entropy loss, which treats all token prediction errors equally, the reweighted loss shifts the focus to semantically salient tokens with outsized clinical importance. In experiments on ophthalmological report generation, we show that this simple method improves efficiency across multiple data scales, achieving similar report quality with up to ten times less training data.

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

交叉熵損失的盲點：把「no drusen」和「OCT scan」視為等重錯誤

三組關鍵詞集合：56 個詞撬動整個損失函數

實驗設計：91 萬個 VQA 樣本，4 折交叉驗證

10% 資料配合加權損失，AMD 分期 F1 超越 100% 基準

低工程成本換高資料效率：適用資料匱乏的醫療次專科

補充數據視覺化

Abstract

🔗 相關推薦

GPT-5.5 完整重訓代理人模型，五項基準全面領先

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。