南加州大學團隊證實，僅憑傷後 7 天內的常規病歷文本，大型語言模型就能以 0.892 的準確率預測創傷後癲癇。

AI 導讀 technology AI 重要性 4/5

模態感知融合：明確數值保留為表格，敘事文字轉為 LLM 嵌入，預測效果最佳。
生成式提示失效：GPT 等模型直接預測的穩定性極低，不如將其轉化為固定嵌入特徵。
小模型具競爭力：3 億參數通用模型表現直逼專業醫療大模型，且較不易引發過擬合。

南加州大學團隊證實，僅憑受傷後 7 天內的常規臨床紀錄，不依賴昂貴神經影像，大型語言模型就能以高達 0.892 的 AUC-ROC 準確率預測創傷後癲癇。這項涵蓋 256 名患者的研究，展現了純文本資料預測高風險神經疾病的潛力。

取代昂貴神經影像的 TRACK-TBI 臨床紀錄

創傷後癲癇（PTE）是創傷性腦損傷（TBI）後可能引發的嚴重神經系統疾病。過去預測 PTE 的機器學習模型高度依賴核磁共振等神經影像生物標記，但影像資料不僅取得成本高昂，在多中心研究中也常面臨設備與格式不統一的挑戰。為了提早介入時機，研究團隊轉向了成本極低且普適性極高的資源：急診與住院期間的文字紀錄。

本研究使用了 TRACK-TBI（創傷性腦損傷轉化研究與臨床知識）資料庫的數據。團隊篩除了原本就有癲癇病史的患者，最終框定 256 名受試者，其中有 58 名在後續追蹤中發展出 PTE。為了確保預測的「早期」價值，所有輸入模型的特徵，嚴格限制在患者受傷後前 7 天內產生的紀錄，包含昏迷指數、加護病房（ICU）停留狀況、手術報告與常規實驗室檢查結果。

將繁雜表格轉換為語言模型可讀的偽臨床筆記

醫院系統內的臨床表格往往充滿異質性，包含混亂的術語、代碼與缺漏值。為了讓 LLM（大型語言模型，具備處理龐大文本與理解語境的神經網路）能有效處理這些異質數據，團隊將表格資料序列化為「偽臨床筆記」（pseudo-clinical notes）。他們將病歷整理成具備固定模板的自然語言段落，並劃分為六個特定面向。

這六大面向涵蓋了生命徵象、神經學檢查、影像報告文字與病史等。若遇到缺漏數據，團隊會直接插入「NOT_REPORTED」標記，讓模型能明確區分缺失值與正常狀態。此外，每一個文字段落開頭都加上了領域上下文標籤（context tag），明確指示該段文字屬於「放射科報告」或「神經學檢查」，這項設計大幅提升了語言模型解讀專業術語的穩定性。

模態感知融合策略創下 0.892 預測準確率

研究比較了三種特徵輸入策略：純表格數據、純語言模型生成的文本嵌入（Text Embeddings，將文字轉化為固定長度的高維度數值陣列），以及將兩者混合的融合策略。團隊發現，直接把所有數據暴力拼接的融合方式並沒有帶來效能提升，真正發揮效益的是「模態感知融合」（Modality-Aware Fusion）。

在這種策略下，明確的數值與二元指標（如電腦斷層掃描的有無、昏迷指數、實驗室檢驗值）被保留為傳統的表格特徵；而複雜的敘事文字（如加護病房病程、開顱手術筆記、病史描述）則交由語言模型轉化為文本嵌入。這套融合策略結合基於樹狀結構的 XGBoost 分類演算法，最終達成了 0.892 的 AUC-ROC（接收者操作特徵曲線下面積）以及 0.798 的 AUPRC（精確度與召回率曲線下面積），在處理極度不平衡的醫療數據時，展現出高度的少數類別辨識能力。

文字嵌入穩定度大幅擊敗 GPT-5.2 零樣本提示

隨著 ChatGPT 的普及，直接用提示詞要求生成式模型進行分類成為一種流行做法。然而，研究團隊在零樣本提示（Zero-shot prompting）測試中發現，直接讓生成式 LLM 讀取病歷並輸出預測機率的結果極不穩定。例如，GPT-5.2 的預測表現僅有 0.589 的 AUC-ROC，幾乎與隨機猜測無異。

即便使用具備推理能力的進階版本（GPT-5.2 Thinking），準確率雖提升至 0.808，但仍遠不及將模型固定為特徵萃取器的表現，且預測變異度極大。這項結果證實，面對訓練樣本極少且類別分佈不均的特殊預測任務，將大型語言模型的最後一層神經元輸出作為固定長度的嵌入特徵，再交由傳統機器學習分類演算法進行訓練，是現階段兼顧語意理解與數學機率穩定性的最佳架構。

專用醫療模型與 Gemma-300M 的參數規模對比

在選擇作為特徵萃取器的嵌入模型時，以海量醫療文獻預訓練的 BioClinical-ModernBERT 展現了最強的領域理解力，AUC-ROC 達 0.888。但令人意外的是，輕量級的通用模型 EmbeddingGemma-300M 表現也極具競爭力（AUC-ROC 0.890），證明現代小巧的開源模型已具備處理複雜臨床敘事的語意能力。

研究也指出參數規模並非越大越好。當換成參數量高達 80 億的 Qwen-8B 模型時，預測效能反而出現下滑，這可能是過於龐大的特徵維度在小型數據集上引發了過擬合（Overfitting）。此外，在詞彙特徵聚合（Pooling）策略上，將整段文字所有標記特徵取平均值的「平均池化」（Mean pooling）穩定擊敗了傳統的單一標籤截取法，顯示出完整保留分佈式文本資訊對於捕捉臨床風險的關鍵價值。

大型語言模型作為固定的文本特徵萃取器，比直接生成預測機率更可靠，是解鎖非結構化病歷價值的實用架構。

Abstract

Objective: Post-traumatic epilepsy (PTE) is a debilitating neurological disorder that develops after traumatic brain injury (TBI). Early prediction of PTE remains challenging due to heterogeneous clinical data, limited positive cases, and reliance on resource-intensive neuroimaging data. We investigate whether routinely collected acute clinical records alone can support early PTE prediction using language model-based approaches. Methods: Using a curated subset of the TRACK-TBI cohort, we developed an automated PTE prediction framework that implements pretrained large language models (LLMs) as fixed feature extractors to encode clinical records. Tabular features, LLM-generated embeddings, and hybrid feature representations were evaluated using gradient-boosted tree classifiers under stratified cross-validation. Results: LLM embeddings achieved performance improvements by capturing contextual clinical information compared to using tabular features alone. The best performance was achieved by a modality-aware feature fusion strategy combining tabular features and LLM embeddings, achieving an AUC-ROC of 0.892 and AUPRC of 0.798. Acute post-traumatic seizures, injury severity, neurosurgical intervention, and ICU stay are key contributors to the predictive performance. Significance: These findings demonstrate that routine acute clinical records contain information suitable for early PTE risk prediction using LLM embeddings in conjunction with gradient-boosted tree classifiers. This approach represents a promising complement to imaging-based prediction.

Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings

取代昂貴神經影像的 TRACK-TBI 臨床紀錄

將繁雜表格轉換為語言模型可讀的偽臨床筆記

模態感知融合策略創下 0.892 預測準確率

文字嵌入穩定度大幅擊敗 GPT-5.2 零樣本提示

專用醫療模型與 Gemma-300M 的參數規模對比

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。