CSRA: Controlled Spectral Residual Augmentation for Robust Sepsis Prediction
天津大學團隊提出 CSRA 頻域擴增框架,在無額外病歷資料下,使短視窗敗血症預測的回歸誤差降低 10.2%。
- 針對短視窗 ICU 資料稀缺,CSRA 利用離散餘弦轉換將臨床時間序列映射至頻譜進行殘差擴增。
- 結合錨點一致性與控制器正則化機制,與下游預測模型端到端訓練,避免產生不合理的生理軌跡。
- 在 MIMIC-IV 敗血症隊列測試中,MSE 降低 10.2%,且在僅存 10% 訓練資料時仍維持最高分類準確率。
針對加護病房敗血症的早期預警,當臨床觀察時間縮短,預測模型的準確率往往會大幅下降。天津大學與浙江大學團隊最新提出的 CSRA 頻域資料擴增框架,透過離散餘弦轉換在頻率領域進行微調,在無需增加真實病歷的情況下,成功讓預測回歸誤差(MSE)降低了 10.2%。這項技術在訓練資料僅剩 10% 的極端情境中,依然能維持高水準的預測表現。
短視窗敗血症預測面臨的雙重資料稀缺難題
加護病房(ICU)中的敗血症患者病情變化極快,提前預測未來風險與病情進展對於及時介入至關重要。當我們試圖縮短觀察視窗(Observation Window)並延長預測範圍(Prediction Horizon)時,預測任務的難度會急遽上升。這種難度源於兩種相關的資料稀缺現象:一方面,患者通常在症狀明顯時才就醫,導致遠離發病早期的觀察紀錄十分有限;另一方面,隨著預測範圍拉長,擁有足夠長且完整後續追蹤紀錄的病患軌跡也隨之減少。
傳統的時間序列資料擴增(Data Augmentation)技術雖然能擴充樣本,卻難以直接應用於短視窗的 ICU 序列。在短視窗設定下,觀察到的歷史軌跡本來就缺乏足夠的臨床結構資訊,無限制的擾動(如隨機加入雜訊、時間扭曲)極易破壞原本就有用的訊號。此外,ICU 的各項變數在多個臨床生理系統之間具有強烈的耦合關係,隨意的擴增容易產生在生理學上根本不合理的數值模式。
為了克服時間維度擴增的限制,研究團隊提出 CSRA(Controlled Spectral Residual Augmentation,受控頻譜殘差擴增)框架。這套機制的設計目標,是在原始軌跡周圍建構結構化的擴增樣本,同時嚴格保留具備臨床合理性的軌跡變化。這讓模型能接觸到更具挑戰性的局部動態變化,而不會受到失真訊號的干擾。
將多系統臨床變數映射至頻域進行 DCT 殘差擾動
CSRA 框架的首要步驟是建立多系統狀態編碼(Multi-system State Encoding)。臨床時間序列中,屬於同一生理系統的變數通常對疾病進展有著協同反應。系統依據臨床先驗知識,將輸入變數劃分為 9 個預定義的生理系統(例如呼吸系統、循環系統等)。針對每個系統提取局部表徵,接著再將它們聚合為總體表徵,藉此保留局部的生理結構並掌握病患的整體狀態。
在完成編碼後,CSRA 放棄了容易破壞訊號的時域擾動,轉而實施系統條件下的頻譜擴增(System-Conditioned Spectral Augmentation)。對於每個臨床系統,演算法會沿著時間維度應用離散餘弦轉換(DCT),將時序資料轉移到頻率域。轉換後的頻譜被分解為三個特定頻段:低頻部分捕捉緩慢變化的趨勢,中頻部分對應中等尺度的起伏,而高頻部分則反映快速的局部變異。
擾動的強度與方向並不是隨機分配,而是交由一個自適應控制器來決定。這個控制器會讀取前述的局部與總體表徵,計算出針對不同系統、頻段與時間位置的權重與時間閘門(Temporal gate)。調整過後的頻譜殘差隨後被反向映射回時域,並加上系統級的縮放因子,最終生成擴增後的系統軌跡。這種設計將頻段重加權與時域縮放解耦,使擴增過程不僅具備結構性,還能自動適應病患的即時狀態。
導入錨點一致性與控制器正則化以穩定端到端訓練
為了避免擴增過度偏離現實,CSRA 將擴增器與下游預測模型放在同一個統一目標下進行端到端(End-to-end)優化。團隊引入了錨點一致性損失(Anchor consistency loss),利用原始未擴增資料的預測結果作為固定錨點,約束擴增分支的輸出。這種機制限制了模型在面對擴增樣本時的預測偏差,大幅降低生成不切實際軌跡的風險。
除了確保預測一致性,CSRA 還設計了控制器正則化(Controller regularization)機制,防止演算法產生過強、過度集中或是完全不活躍的調節模式。內部正則化項限制了跨系統和跨頻段的總體調變強度,避免少數系統或頻段主導整個擴增過程。外部正則化項則透過熵值計算,鼓勵時間閘門將擾動質量分散到更廣泛的時間步長上,而不是僅集中在少數幾個時間點。
這種聯合訓練架構讓擴增策略不僅是固定的前處理步驟,而是能直接接受下游任務監督的動態學習過程。不論下游任務是連續數值的回歸預測,還是疾病風險的分類預測,這套擴增框架都能根據目標進行最佳化,找到最適合該任務的頻段干預策略。在模組拆解實驗中,一旦拔除統一訓練目標中的損失函數約束,模型效能衰退最為嚴重,這凸顯了正則化控制器在維持擴增軌跡穩定性上的關鍵作用。
MIMIC-IV 隊列實驗證實回歸 MSE 顯著降低 10.2%
為了驗證 CSRA 的實際效能,團隊使用了大型公開醫療資料庫 MIMIC-IV 中的 34,793 名敗血症病患資料進行測試。研究設置了 6 小時的觀察視窗,進行未來的臨床變數回歸與風險分類任務。實驗導入了 Linear、LSTM 以及 Transformer 等主流預測架構,並與 InfoTS、A2Aug、AutoDA-Timeseries 等代表性的擴增基線方法進行對比。
在連續變數的回歸預測上,CSRA 帶來了顯著的改進。與不使用任何擴增技術的基準線相比,CSRA 在三種下游模型上的平均均方誤差(MSE)從 0.179 降至 0.161,相對降低了 10.2%;平均絕對誤差(MAE)則下降了 3.7%。在針對敗血症預測設計的專用模型 AL-Transformer 上,導入 CSRA 更是讓 MSE 降至最低的 0.144,顯示頻譜殘差擴增在連續數值預測上的高度適配性。
在分類任務方面,包含 90 天死亡率、再次入院與敗血性休克等風險預測,CSRA 同樣展現穩定的提升。相較於非擴增基準,平均 AUROC 從 0.889 提升至 0.900,AUPRC 則從 0.712 上升至 0.730。對比其他需要兩階段表徵學習或自動化搜索的擴增方法,CSRA 在大部分設定下都取得了最佳或次佳的表現,證明通用的擴增策略無法有效豐富 ICU 時間序列中的臨床相關變化。
在 10% 訓練資料集與嚴苛時間視窗下的極限測試
CSRA 最突出的價值體現在資料極度受限的環境下。當團隊將訓練資料比例從 100% 逐步縮減至 10% 時,所有對照組的性能都出現了不同程度的衰退。然而,CSRA 在 10% 與 30% 這種低資料比例下,依舊維持著最高水準的分類 AUROC 與最低的回歸 MAE。這意味著當我們能取得的病歷資料極其稀少時,結構化的頻譜擴增能發揮最大的救援效用。
改變時間條件的實驗進一步確認了 CSRA 的魯棒性。無論是進一步縮短觀察視窗,或是拉長預測距離,預測誤差必然會擴大。但在這些更嚴苛的時間設定中,CSRA 表現出更平緩的效能衰退曲線。在觀察頻段干預行為時也發現,針對循環、腎臟與代謝系統,控制器自動分配了較強的擴增訊號;而呼吸系統則在高頻段獲得較多擾動。這種現象完全吻合敗血症病情惡化時的臨床特徵。
最後,透過 50 個實際案例的臨床醫師盲測評分證實,CSRA 在數值合理性、趨勢合理性以及跨變數連貫性上的得分,全面超越了非擴增模型。模型預測的未來軌跡不僅在單一變數上顯得自然,多個變數聯合起來的狀態也高度一致,成功將機器學習的數學優化轉換為具備實際輔助價值的臨床資訊。
CSRA 透過將時間序列轉入頻率域進行自適應微調,在不扭曲生理訊號的前提下創造有效訓練樣本,為短視窗與小樣本的臨床預測提供了解方。