Evaluating quality in synthetic data generation for large tabular health datasets

Jean-Baptiste Escudié, Benjamin Barnes, Stefan Meisegeier, Klaus Kraywinkel, Fabian Prasser, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

測試250萬筆合成數據發現,參數優化讓TabDDPM效能飆升85,797%。

  • 面對百萬筆規模的資料集,多數生成模型若依賴預設參數將導致效能嚴重低落。
  • 整合MAE、覆蓋率與捏造率的二維散佈圖,為評估合成數據聯合分佈提供視覺化標準。
  • 所有合成模型在癌症數據中均發生違反ICD編碼邏輯的錯誤,PrivSyn受影響樣本最少。

在評估高達 250 萬筆表格數據的合成品質時,直接使用模型預設參數可能導致嚴重失真。一項比較 7 款主流合成模型的最新研究顯示,經過系統性的超參數優化後,擴散模型 TabDDPM 的效能可飆升 85,797%。這項針對德國癌症登記等大型健康資料集的研究,為評估合成數據的保真度提供了一套視覺化的新標準。

突破10萬筆限制:4個不同規模的表格資料集

隱私保護與資料擴增的需求日益增加,帶動了合成表格資料技術的發展。從傳統的統計方法演進到生成對抗網路與擴散模型,相關演算法層出不窮。然而,過去發布的模型多半在小於 10 萬筆且特徵有限的公開機器學習資料集上進行測試,難以證明其在擁有龐大樣本數與高維度特徵的真實情境下是否依然有效。

為了驗證模型的跨尺度能力,研究團隊選用了 4 個不同規模的資料集進行基準測試。其中包含小型的 Abalone(4k 樣本)與混合型變數的 Adult(48k 樣本)。在大型資料集方面,則引入了包含 245 萬筆純類別資料的美國人口普查檔案 USCensus1990,以及高達 100 萬筆歷史紀錄的德國癌症登記資料子集(EpiCancerGER)。

參與評估的 7 種模型涵蓋了當前主流的機器學習架構,包含 PrivSynTabDDPMCTGANTVAEPGMTableDiffusion,以及基於 Transformer 的大語言模型 GReaT。部分具備差分隱私(Differential Privacy)功能的模型在測試中被賦予極大的隱私預算(epsilon 設為 1e+8),以確保所有模型都能在追求最高品質的基礎上進行公平比較。

TabDDPM優化實證:效能指標暴增85797%

許多開發者習慣依賴開源函式庫提供的預設參數,但這在處理大型或特定領域資料集時往往成為效能瓶頸。研究團隊使用樹狀 Parzen 估計器(TPE)為每個模型與資料集組合進行獨立的超參數優化(HPO)。優化過程中設定了一項關鍵規則:只有成功完成訓練和生成的試驗才計入預算。

這項設定是因為在 NVIDIA H100、A100 和 L40 等 GPU 環境下,模型經常因為特定的批次大小要求,或記憶體耗盡(OOM)而導致訓練失敗。給予模型無限次失敗機會來湊滿指定的成功試驗次數,能避免演算法缺陷導致測試不公。多數模型在最初的 150 次試驗內就能收斂到最佳參數,僅有 PGMPrivSyn 對超參數變化的敏感度較低。

測試數據明確證實了超參數優化的必要性。在 USCensus1990EpiCancerGER 兩大資料集上,若不進行優化,除 PrivSyn 外的所有模型都處於效能低落的狀態。擴散模型 TabDDPM 受益最大,優化後的聯合分佈指標巨幅提升了 85,797%。若僅憑預設值評估,TabDDPM 將被判定為不合格,但經過優化後,它躍升為整體排名第二的優異模型。

整合MAE與覆蓋率:二維散佈圖簡化合成評估

合成資料領域缺乏統一的評估共識,現有軟體庫動輒提供數十種指標,讓非統計背景的利害關係人(如醫師、公衛機構)難以解讀。為此,研究團隊提出一套精簡且直觀的視覺化評估框架,核心聚焦於邊際機率的分佈相似度。針對類別變數,主要採用平均絕對誤差(MAE)來衡量真實與合成資料在單一(1D)或成對變數(2D)上的差異。

為了避免模型落入「模式崩潰」(只生成最常見類別以欺騙評估機制的陷阱),研究引入了覆蓋率(Coverage)與捏造率(Invented)兩個補充指標。Coverage 衡量合成資料成功還原了多少真實資料中存在的類別組合;而 Invented 則計算合成資料中出現了多少真實世界根本不存在的無效關聯。這三項指標被巧妙地整合在一張成對變數的二維散佈圖中。

在該散佈圖上,點越靠近對角線代表 MAE 越低(保真度高),落在 X 軸上的點對應了未能生成的遺漏組合,而 Y 軸上的點則直觀展現了模型捏造的錯誤關聯。針對數值型變數,則透過將數值離散化並計算直方圖的交併比(Hist_IoU),或是運用包含所有變數的分位數-分位數圖(QQ plot)來進行比對,為所有模型提供了一目了然的排名依據。

百萬筆德國癌症數據:PrivSyn與ICD編碼邏輯

綜合評比下,PrivSyn 在所有資料集的成對類別指標中穩居第一。它能在不破壞現有關聯的前提下,維持極高的覆蓋率。排名第二的 TabDDPM 捏造率極低,但聯合分佈指標略遜一籌。TVAECTGAN 則展現了截然不同的行為模式:TVAE 傾向高估普遍的數據關聯,寧可犧牲覆蓋率也不願捏造無效數據;而 CTGAN 則傾向低估關聯,表現出更均勻的誤差分佈。

儘管模型在統計指標上表現優異,醫療數據仍面臨嚴格的領域邏輯考驗。研究團隊針對 EpiCancerGER 進行了「領域違規」(Domain violation)分析,檢驗合成資料是否遵守 ICD-10(國際疾病分類)的結構規則。結果發現,所有模型都不可避免地生成了無效數值對,例如前三碼不符合完整代碼前綴的錯誤 ICD 組合。

當變數加入性別與年齡時,邏輯衝突更加明顯,例如生成「男性患有女性生殖器腫瘤」等不合理關聯。CTGAN 的錯誤組合涵蓋了高達 60.2% 的潛在無效編碼空間;而 PrivSyn 雖然也有違規情況,但受影響的合成樣本總數最少。值得一提的是,GReaT 因為完全不捏造任何關聯而避開了領域違規,但這導致其運算成本極高且覆蓋率極低,突顯了生成模型在維持統計分佈與遵守醫學邏輯之間的取捨難題。

擺脫預設參數依賴,結合二維視覺化與嚴格的領域邏輯檢查,是確保大型合成表格可用性的關鍵。

Abstract

There is no consensus in the field of synthetic data on concise metrics for quality evaluations or benchmarks on large health datasets, such as historical epidemiological data. This study presents an evaluation of seven recent models from major machine learning families. The models were evaluated using four different datasets, each with a distinct scale. To ensure a fair comparison, we systematically tuned the hyperparameters of each model for each dataset. We propose a methodology for evaluating the fidelity of synthesized joint distributions, aligning metrics with visualization on a single plot. This method is applicable to any dataset and is complemented by a domain-specific analysis of the German Cancer Registries' epidemiological dataset. The analysis reveals the challenges models face in strictly adhering to the medical domain. We hope this approach will serve as a foundational framework for guiding the selection of synthesizers and remain accessible to all stakeholders involved in releasing synthetic datasets.