Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings
南加州大學團隊證實,僅憑傷後 7 天內的常規病歷文本,大型語言模型就能以 0.892 的準確率預測創傷後癲癇。
- 模態感知融合:明確數值保留為表格,敘事文字轉為 LLM 嵌入,預測效果最佳。
- 生成式提示失效:GPT 等模型直接預測的穩定性極低,不如將其轉化為固定嵌入特徵。
- 小模型具競爭力:3 億參數通用模型表現直逼專業醫療大模型,且較不易引發過擬合。
南加州大學團隊證實,僅憑受傷後 7 天內的常規臨床紀錄,不依賴昂貴神經影像,大型語言模型就能以高達 0.892 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 256 名患者的研究,展現了純文本資料預測高風險神經疾病的潛力。
取代昂貴神經影像的 TRACK-TBI 臨床紀錄
創傷後癲癇(PTE)是創傷性腦損傷(TBI)後可能引發的嚴重神經系統疾病。過去預測 PTE 的機器學習模型高度依賴核磁共振等神經影像生物標記,但影像資料不僅取得成本高昂,在多中心研究中也常面臨設備與格式不統一的挑戰。為了提早介入時機,研究團隊轉向了成本極低且普適性極高的資源:急診與住院期間的文字紀錄。
本研究使用了 TRACK-TBI(創傷性腦損傷轉化研究與臨床知識)資料庫的數據。團隊篩除了原本就有癲癇病史的患者,最終框定 256 名受試者,其中有 58 名在後續追蹤中發展出 PTE。為了確保預測的「早期」價值,所有輸入模型的特徵,嚴格限制在患者受傷後前 7 天內產生的紀錄,包含昏迷指數、加護病房(ICU)停留狀況、手術報告與常規實驗室檢查結果。
將繁雜表格轉換為語言模型可讀的偽臨床筆記
醫院系統內的臨床表格往往充滿異質性,包含混亂的術語、代碼與缺漏值。為了讓 LLM(大型語言模型,具備處理龐大文本與理解語境的神經網路)能有效處理這些異質數據,團隊將表格資料序列化為「偽臨床筆記」(pseudo-clinical notes)。他們將病歷整理成具備固定模板的自然語言段落,並劃分為六個特定面向。
這六大面向涵蓋了生命徵象、神經學檢查、影像報告文字與病史等。若遇到缺漏數據,團隊會直接插入「NOT_REPORTED」標記,讓模型能明確區分缺失值與正常狀態。此外,每一個文字段落開頭都加上了領域上下文標籤(context tag),明確指示該段文字屬於「放射科報告」或「神經學檢查」,這項設計大幅提升了語言模型解讀專業術語的穩定性。
模態感知融合策略創下 0.892 預測準確率
研究比較了三種特徵輸入策略:純表格數據、純語言模型生成的文本嵌入(Text Embeddings,將文字轉化為固定長度的高維度數值陣列),以及將兩者混合的融合策略。團隊發現,直接把所有數據暴力拼接的融合方式並沒有帶來效能提升,真正發揮效益的是「模態感知融合」(Modality-Aware Fusion)。
在這種策略下,明確的數值與二元指標(如電腦斷層掃描的有無、昏迷指數、實驗室檢驗值)被保留為傳統的表格特徵;而複雜的敘事文字(如加護病房病程、開顱手術筆記、病史描述)則交由語言模型轉化為文本嵌入。這套融合策略結合基於樹狀結構的 XGBoost 分類演算法,最終達成了 0.892 的 AUC-ROC(接收者操作特徵曲線下面積)以及 0.798 的 AUPRC(精確度與召回率曲線下面積),在處理極度不平衡的醫療數據時,展現出高度的少數類別辨識能力。
文字嵌入穩定度大幅擊敗 GPT-5.2 零樣本提示
隨著 ChatGPT 的普及,直接用提示詞要求生成式模型進行分類成為一種流行做法。然而,研究團隊在零樣本提示(Zero-shot prompting)測試中發現,直接讓生成式 LLM 讀取病歷並輸出預測機率的結果極不穩定。例如,GPT-5.2 的預測表現僅有 0.589 的 AUC-ROC,幾乎與隨機猜測無異。
即便使用具備推理能力的進階版本(GPT-5.2 Thinking),準確率雖提升至 0.808,但仍遠不及將模型固定為特徵萃取器的表現,且預測變異度極大。這項結果證實,面對訓練樣本極少且類別分佈不均的特殊預測任務,將大型語言模型的最後一層神經元輸出作為固定長度的嵌入特徵,再交由傳統機器學習分類演算法進行訓練,是現階段兼顧語意理解與數學機率穩定性的最佳架構。
專用醫療模型與 Gemma-300M 的參數規模對比
在選擇作為特徵萃取器的嵌入模型時,以海量醫療文獻預訓練的 BioClinical-ModernBERT 展現了最強的領域理解力,AUC-ROC 達 0.888。但令人意外的是,輕量級的通用模型 EmbeddingGemma-300M 表現也極具競爭力(AUC-ROC 0.890),證明現代小巧的開源模型已具備處理複雜臨床敘事的語意能力。
研究也指出參數規模並非越大越好。當換成參數量高達 80 億的 Qwen-8B 模型時,預測效能反而出現下滑,這可能是過於龐大的特徵維度在小型數據集上引發了過擬合(Overfitting)。此外,在詞彙特徵聚合(Pooling)策略上,將整段文字所有標記特徵取平均值的「平均池化」(Mean pooling)穩定擊敗了傳統的單一標籤截取法,顯示出完整保留分佈式文本資訊對於捕捉臨床風險的關鍵價值。
大型語言模型作為固定的文本特徵萃取器,比直接生成預測機率更可靠,是解鎖非結構化病歷價值的實用架構。