Improving Machine Learning Performance with Synthetic Augmentation
加州大學研究指出,合成數據擴增會引發偏差與變異數權衡,若生成機制與真實市場極端情境不符,反將大幅降低模型預測能力。
- 建立對等規模的無效擴增對照組,成功分離出合成數據的資訊增益與單純樣本數增加帶來的機械性效應。
- SPY選擇權1.41億筆逐筆數據證實,若生成器未能捕捉重尾分佈與時序依賴,合成數據將導致模型在極端狀態失效。
- 合成擴增僅在變異數主導的任務中有效,在接近效率市場的方向預測任務中反而會引發效能惡化。
在加州大學柏克萊分校發表的最新研究中,研究團隊透過高達 1.41 億筆的 SPY 選擇權逐筆交易數據與 4,920 筆每日股票面板數據,嚴格檢視合成數據(Synthetic data)在金融機器學習中的真實效用。研究證實,合成數據並非解決資料稀缺的萬靈丹,而是引發結構性的「偏差-變異數權衡」:當合成數據的生成機制偏離真實評價分佈時,擴增樣本反而會扭曲模型預測目標,導致學習效能顯著衰退。
SPY選擇權1.41億筆逐筆數據的極端分佈
金融市場數據與電腦視覺或自然語言處理領域截然不同,具備有效樣本極限、極端重尾分佈以及微觀結構雜訊等特性。為了呈現真實市場的複雜度,研究採用 2021 年至 2026 年的 SPY 選擇權逐筆交易磁帶,總計涵蓋 1.415 億筆通過清洗的高頻時序資料。該任務目標為預測 3 個跳動點(ticks)後的報酬方向,但在這龐大的資料庫中,高波動與極端市場壓力的微觀狀態卻極度稀缺。
分析顯示,SPY 逐筆報酬率呈現極度不正常的峰態(超額峰度超過 10,000)與強烈的負偏態(-70.4)。若強制以高斯分佈(常態分佈)去校準這些數據,兩者的分佈曲線在核心區間看似吻合,但在決定風險與獲利的尾部區間卻出現驚人的落差。這種極端事件的資料匱乏,使得只匹配一階或二階動差的生成機制註定失敗,因為它們會系統性地忽略那些真正驅動市場損益的罕見序列。
除了超高頻數據,研究另外導入 Databento 的每日股票面板數據,涵蓋 AAPL、MSFT 等 5 檔大型美股從 2020 年至 2024 年的日線資料。比起高頻數據的極端分佈,每日面板數據面臨的是橫截面樣本過少的問題,為評估合成數據在平滑關係與波動率預測中的作用提供了完美的對比環境。
合成擴增的結構性代價:偏差與變異數權衡
傳統觀念常將合成數據視為單純的「資料擴增」手段,但在數學框架下,加入合成樣本實際上改變了機器學習模型的「有效訓練分佈」。當演算法在混合了真實與合成數據的池子中訓練時,即使給予無限量的數據,其最佳化的目標函數也會從純真實數據的最佳解,偏移至混合數據的最佳解。這產生了無可避免的結構性權衡效應。
一方面,擴大有效樣本數確實能降低隨機的估計誤差(變異數下降);但另一方面,只要合成數據的生成分佈無法完美吻合測試集的真實分佈,就會產生漸近的偏差(Bias)。在訊號微弱且時間相依性強的金融領域中,若生成器針對罕見事件的建模能力不足,混合訓練分佈將給予極端事件比真實世界更低的權重,導致模型在關鍵的壓力測試中崩潰。
研究強調,合成數據是否有益,完全取決於「變異數的減少」是否大於「分佈偏移帶來的偏差」。若模型在訓練階段就受到錯誤生成機制的引導,那再逼真的邊際分佈與平滑曲線,都無法轉化為樣本外(Out-of-sample)預測效能的實質提升。
無效擴增對照組與區塊排列檢定的創新框架
為了精準量化合成數據帶來的「資訊增益」,研究團隊摒棄了傳統僅與真實數據基線比對的方法,創新引入了「對等規模無效擴增」(Size-matched null augmentation)的實驗對照組。此對照組會加入與合成數據相同數量的擾動樣本(例如破壞時間相依性的隨機洗牌,或標籤重組),保留了基本的統計特徵,卻徹底抹除了預測訊號。
透過比較合成模型與無效擴增模型之間的損失函數差異,研究者得以將「單純增加樣本數的機械效應」與「合成數據額外賦予的結構化資訊」成功分離。此外,考量到金融時序資料固有的自相關性,逐點翻轉符號的傳統統計檢定容易失效。因此,研究採用無母數的區塊排列檢定(Block permutation test),以區塊為單位保留短期的時序依賴,確保即使在弱相依的條件下也能維持嚴格的統計顯著性控制。
這套框架並非用來檢驗合成數據看起來「逼不逼真」,而是從因果推論的角度,確認替換成具有結構化預測資訊的合成數據後,究竟能否在特定的機器學習演算法與測試分佈下,產生顯著的期望損失下降。
馬可夫轉換與五種生成器架構的效能對比
為了深入探究生成器架構的影響,實驗部署了五種複雜度遞增的模型,包含無母數的 Block Bootstrap、建立聯合分佈的 Copula(基於邊際分佈建構變數相關性的模型)、VAE(變分自編碼器)、DDPM(去噪擴散機率模型,透過學習逐步消除雜訊來生成真實數據)以及專注於時序的 TimeGAN 架構。在進入真實市場資料前,研究更設計了雙狀態馬可夫轉換(Markov-switching)的受控實驗環境。
在受控實驗中,真實的資料生成過程(DGP)是已知的。數據證明,當合成樣本由完美的 Oracle 模型生成時,隨著合成擴增比例(從 0.25 提升至 1.0),預測效能會呈現單調遞增,展現純粹的變異數降低優勢。然而,只要引入微小的訊號翻轉或波動率錯誤設定,擴增比例越高,模型的預測表現就跌得越慘,直接印證了偏差主導狀態下的破壞力。
這些對比凸顯了生成器選擇的關鍵性。像 Bootstrap 這樣的無母數方法雖然安全,卻無法探索觀測樣本以外的空間;而高容量的深度生成模型(如 DDPM 或 TimeGAN)雖具備內插與有限外插的能力,但如果訓練不足或模型設定不當,反而會大量製造偏離真實時序的假訊號,在極端行情中干擾預估方向。
合成數據在方向預測與波動率任務中的差異
將實驗轉移至實際數據後,結果揭示了合成擴增在不同金融任務間的巨大歧異。在每日股票面板數據中,針對連續的「波動率預測」任務,由於波動率具備較強的持續性與結構特徵,這屬於典型的變異數主導情境。在這種環境下,合成擴增確實發揮了穩定估計的功效,並在統計檢定上顯著優於無效對照組。
相反地,針對近乎處於市場效率狀態的「方向性預測」(例如預測隔日股價漲跌),訊號雜訊比極低且容錯率極小。這類任務屬於偏差主導環境,任何由生成器導入的微小結構變形,都會被模型放大解讀。實證顯示,在此情境中過度依賴生成數據,反而會引發效能的嚴重倒退,得不償失。
總體而言,針對罕見狀態進行標靶式的合成數據擴充,有助於提升特定領域指標,但可能與整體的無條件推論產生衝突。金融從業人員在導入合成數據前,必須深刻理解當前預測任務是受限於「樣本變異數」還是受制於「生成偏差」,否則盲目擴充資料庫只會換來更精緻的錯誤預測。
只有當生成機制能精準捕捉尾部風險與時序依賴時,合成數據才能在金融機器學習中提供實質的預測優勢。