Key Measures for Evaluating Diagnostic Accuracy in Multi-Class Classification: An Overview and Simulation-Based Comparison.

Ryu Leeha, Han Kyunghwa, Jung Inkyung, Park Yae Won, Ahn Sung Soo, et al.

View Original ↗
AI 導讀 academic AI 重要性 4/5

破解多分類 AI 評估陷阱:Micro-AUC 可能因樣本失衡嚴重高估,M-index 才是最穩定的鑑別力指標

  • 在極端樣本不平衡的多分類情境中,Micro-averaged AUC 與總體準確率 (CCP) 會產生嚴重的數值高估。
  • 萬次蒙地卡羅模擬證實,M-index 與 PDI 在應對類別樣本數失衡時偏差最小,能真實反映模型的相對排序能力。
  • 真實腫瘤分級資料驗證,在 UCSF 失衡數據集上,微平均面積達 0.99,但 M-index 僅 0.90,凸顯指標選擇的重要性。

當你在評估一套新的多分類 AI 模型時,高達 0.99 的微平均面積(Micro-averaged AUC)可能只是單純資料不平衡所造成的數學假象。這篇來自延世大學的最新模擬研究證實,當各類別樣本數嚴重失衡時,我們最熟悉的整體正確率與微平均面積會出現極度的高估現象。想要真實反映模型在五個 LI-RADS 等級或複雜腫瘤分級上的真正鑑別力,M-indexPDI 才是真正不會被極端樣本數給騙倒的堅實評估指標。

多分類 AI 評估的盲點與 LI-RADS 挑戰

隨著醫療人工智慧的進展,預測模型的開發已經從單純的二元分類(如疾病的有無),大舉跨入更具臨床價值的多分類系統領域。對於放射科醫師而言,我們每天都在處理多分類的診斷框架,例如評估肝細胞癌風險的五級 LI-RADS(肝臟影像報告與資料系統),或是區分胸部 X 光上的正常、細菌性肺炎、病毒性肺炎、結核病與 COVID-19 等五種狀態。然而,當我們試圖評估這些多分類 AI 模型的表現時,往往會面臨指標選擇的困難。過去文獻廣泛討論了二元分類的敏感度、特異度與接收者操作特徵曲線下面積(AUC),但針對多分類情境的全面性評估標準,卻缺乏系統性的比較。

目前在機器學習領域,研究者經常使用混淆矩陣衍生出的各種總體指標,包含 Micro-averaged AUC(將所有類別的真偽陽性混合計算單一面積)Macro-averaged AUC(計算各類別一對多面積後取平均) 以及 MCC(計算實際與預測類別的整體馬修斯相關係數)。問題在於,醫療影像的真實數據幾乎總是呈現高度不平衡,例如正常的掃描佔據絕大多數,而特定的惡性亞型卻極為罕見。這種資料分佈的偏態,會對傳統的評估指標產生難以預測的扭曲效應。本研究團隊因此設計了大規模的模擬實驗,系統性地比較統計學界與機器學習界常用的多種診斷準確率指標,找出在極端條件下依然穩定的模型評估工具。

要理解這些指標的本質,我們必須先釐清它們的數學運作邏輯,例如專為多分類設計的 M-index,其核心概念是從所有可能的類別配對中,計算隨機抽樣兩名病患並正確區分其風險分數的平均機率。如果以一個三分類模型為例,預測分數為 A(1|2)=0.9、A(2|1)=0.7,則這兩類的鑑別力為 0.8,透過窮舉所有配對並平均,就能得到不受單一龐大類別主導的客觀數值。本研究不僅涵蓋了 M-index,還一併檢視了 PDI(多項式鑑別指數,計算從各類別隨機抽樣一例並全部正確排序的機率) 與 CCP(正確分類機率),藉由模擬探討這些指標的極限。

Table 2 詳述的萬次蒙地卡羅模擬設計

為了徹底檢驗這些指標的能耐,研究團隊使用了多項式邏輯迴歸(Multinomial Logistic Regression)來生成每個類別的預測機率分數。在 Table 2 的設定中,他們建構了包含三個類別與五個類別的多元預測情境,藉此模擬類似腫瘤三級分化或是五級風險分層的臨床預測任務。預測變數(可以想像成某個影像生物標記)被設定為服從常態分佈(Normal distribution)或是指數分佈(Exponential distribution),藉由改變分佈的平均值與變異數,創造出五種不同鑑別難度的情境(Cases 1 至 5)。在最極端的 Case 5 中,預測變數的分佈完全重疊,代表模型僅具有隨機猜測的鑑別力。

在樣本數的配置上,研究涵蓋了完美的平衡設計與極端的不平衡設計,這對於重現真實世界的醫療數據至關重要。以五分類的不平衡情境(Imbalanced 1)為例,總樣本數 300 人被極度不均勻地分配為:第一類 210 人、第二類 30 人、第三類 30 人、第四類 15 人與第五類 15 人。這種高達十倍以上的樣本數落差,完美模擬了急診篩檢中大量陰性案例與少數陽性重症的懸殊比例。為了取得最精確的真實參考值,研究者針對每種情境執行了每類高達一萬名受試者的 Monte Carlo simulations(蒙地卡羅模擬,透過大量隨機抽樣逼近數學期望值)

評估指標效能的核心標準,在於觀察其「偏差值(Bias)」以及「95% 信賴區間的涵蓋率(Coverage probability)」。每一次獨立的模擬都會計算出各種指標的估計值,再將其與一萬人等級的真實值進行比對,藉此評估該指標是否會因為樣本稀缺而產生系統性的高估或低估。此外,團隊更使用了 1000 次的拔靴法(Bootstrap replications)來建立各指標的常態近似信賴區間,檢視這個區間是否能確實包含真正的母體參數,涵蓋率越接近 95% 代表該指標在臨床應用上的統計推論越值得信賴。

模擬設計與樣本數配置
情境設計樣本數分佈細節統計方法
五分類完美平衡每類各 50 / 100 / 200 人10,000 次蒙地卡羅模擬求真值
五分類極端失衡 1第一類 210 人,其餘類別 15-30 人1,000 次 Bootstrap 估算 95% CI
五分類極端失衡 2第三類 200 人,其餘類別 20-30 人變數服從 Normal 或 Exponential 分佈

五分類情境下,模擬極端不平衡的臨床分佈

Figure 1 視覺化失衡數據下的指標崩壞

把焦點轉移到模擬結果,當資料處於各類別樣本數完全相同的完美平衡狀態下,幾乎所有測試的指標都表現得相當穩定且毫無偏差,且信賴區間的涵蓋率也符合統計預期。然而,一旦進入 Figure 1 所展示的不平衡條件(Imbalanced conditions),各項指標的表現立刻出現巨大的分歧。首先,最直觀也最常被 AI 論文吹捧的 CCP(實質上就是整體的準確率),在面對失衡數據時表現出強烈的正向偏差,特別是在五分類的情境下,模型只需把所有案例都猜測為最大類別,就能刷出極高的 CCP 數值,完全掩蓋了少數類別的誤判狀況。

同樣令人擔憂的是 Micro-averaged AUC 的表現。由於微平均的計算方式是將所有類別的真偽陽性數量直接加總(例如 ∑TP 加上 ∑FP)後再繪製單一 ROC 曲線,這導致樣本數最大的類別在計算過程中掌握了絕對的話語權。Figure 1 清楚畫出,相比於 Macro-averaged AUC,Micro-averaged AUC 在資料失衡時始終呈現出明顯的高估偏差。不僅如此,MCC 這個綜合混淆矩陣的相關係數指標,在不平衡設定下也展現出極大的數值波動與變異性,使得它在不同資料集之間的跨中心比較變得非常不可靠。

在所有測試的指標中,M-indexPDI 展現出了最為強韌的抗壓性。這兩個指標的共同特點在於,它們的計算邏輯都是基於「配對」或「抽樣集合」的相對排序,而非絕對數量的加總。無論是在三分類還是五分類的失衡情境中,M-index 的偏差值始終維持在最低水準,並且較不受樣本總數變化的干擾。雖然 PDI 的絕對數值較小(在五分類隨機猜測下基準值為 0.2),但其統計特性極為穩定。值得注意的是,Ordinal Obuchowski’s index(考量疾病嚴重度順序的自訂損失權重指標) 的表現竟然不如未考慮順序的 Nominal 版本,主因在於序數版本過度依賴離散的類別指派,反而喪失了對機率分數微小變化的敏感度。

Table 3 腫瘤分級實戰與過度樂觀的陷阱

為了驗證這套模擬體系在真實世界的適用性,研究團隊將這批指標直接應用於一項成人瀰漫性神經膠質瘤(Adult-type diffuse gliomas)的分子亞型與腫瘤分級預測任務。他們重新評估了先前發表的 GlioMT(一個結合臨床與影像特徵的多模態 Transformer 模型),並對比了傳統的卷積神經網路(CNN)與 ViT 模型。測試資料來自兩個外部獨立資料庫:一個是各類別比例相對均勻的 TCGA 資料集,另一個則是呈現極端分佈不均的 UCSF 真實世界臨床資料集。

若細看 Table 3 中 GlioMT 模型在 UCSF 資料集(高度失衡)的表現,你會發現一個極為驚悚的對比。該模型在 UCSF 的 Micro-averaged AUC 達到了近乎完美的 0.99 [95% CI: 0.98, 0.99],CCP 也有 0.90 [0.88, 0.93]。如果只看這兩個數字,臨床醫師可能會誤以為這個 AI 已經完全解決了腫瘤分級的問題。然而,當我們換成不受極端類別主導的 M-index 時,該數值立刻回落到較為務實的 0.90 [0.87, 0.94];而嚴格要求各類別排序都要正確的 PDI 指標,更是只有 0.43 [0.39, 0.47](該指標在五分類的完美值為 1.0)。

對比之下,在類別分佈較為均勻的 TCGA 資料集中,這種指標間的浮誇落差就明顯縮小。在 TCGA 中,GlioMT 的 Micro-averaged AUC 為 0.87 [0.83, 0.92],而 M-index 則是 0.81 [0.76, 0.85],兩者差距不到 0.06。這個真實世界的驗證結果,完美呼應了 Figure 1 模擬實驗的結論:資料失衡越嚴重,傳統的整體準確率與微平均面積就越不可信。研究同時也測試了傳統的加權 Kappa 係數(Weighted kappa),發現其數值始終大幅低於其他所有的預測表現指標,若單獨使用 Kappa 來評估多分類 AI 模型,反而可能會造成對模型效能的過度悲觀與低估。

真實腫瘤分級的過度樂觀現象

GlioMT 模型在輕微失衡 (TCGA) 與嚴重失衡 (UCSF) 資料集的表現

臨床適用邊界與多分類評估選用指南

從 Discussion 來看,作者坦承這項模擬研究仍有其特定的臨床適用邊界。首先,整個模擬流程僅依賴單一預測變數的特定分佈假設,這並不能完全反映現代深度學習模型從數以千計的影像特徵中進行複雜非線性萃取的真實過程。其次,本研究完全聚焦於模型的「鑑別力(Discrimination)」,並沒有納入校準度(Calibration)的評估。在臨床應用上,模型預測出 80% 的惡性機率,是否真的代表 100 個類似病人中有 80 個是惡性,這需要依賴預期校準誤差等額外指標來判定,未來在評估完整 AI 系統時應將兩者合併檢視。

在指標特性的探討上,作者也特別點出 Obuchowski’s index 的應用限制。雖然序數版本理論上非常適合像是腫瘤分期這類具有明顯嚴重度遞增層級的分類,但由於它依賴自訂的懲罰權重(Penalty weights)來決定跨級誤判的代價,預設權重若未經精細調校,反而會讓指標的統計涵蓋率下降。相對之下,不需要人為設定參數、直接計算所有類別兩兩對比機率的 M-index,在各種未知的資料分佈下都展現出了更為「開箱即用」的穩健性與易懂性。

對於忙碌的放射科醫師而言,我們經常需要審查或是採購商業化的人工智慧影像軟體。當廠商端出一個能夠自動分類肺結節惡性等級或是腦中風嚴重度的多分類模型時,這項研究給了我們最鋒利的照妖鏡。如果訓練數據集有 80% 都是輕症或正常案例,請直接忽視對方簡報上超過 0.95 的 Micro-AUC 或是整體準確率。身為醫療決策的最後防線,我們應該主動要求檢視 Macro-averaged AUC 或是最嚴謹的 M-index,才能確定這套軟體在面對那 5% 真正致命的罕見重症分級時,依然具有可靠的鑑別能力。

下次在採購會議上聽到多分類 AI 的微平均面積高達 0.99 時,請直接翻到各類別樣本數分佈表,並要求廠商補算 M-index,你往往會看到模型真實鑑別力被打回原形的樣子。

Abstract

Recent advancements in artificial intelligence have led to increased interest in predictive modeling across various domains, including medicine. Although numerous metrics have been established for binary classification, the growing adoption of multi-class systems necessitates robust evaluation measures. However, comprehensive simulation studies comparing the performance of existing multi-class metrics under diverse data conditions remain limited. In this study, we first provide a concise overview of commonly used accuracy metrics for multi-class classification. Then, we report a simulation study that systematically evaluates several diagnostic accuracy measures under a wide range of scenarios, including three- and five-class settings, balanced and imbalanced sample sizes, and different distributional assumptions for predictors. We assessed each metric's performance in terms of bias and 95% confidence interval coverage. Under balanced conditions, most metrics demonstrated stable and unbiased performance, closely approximating the true values. However, under imbalanced conditions, greater bias was observed, with the M-index and polytomous discrimination index exhibiting comparatively more stable performance across various scenarios. The micro-averaged receiver operating characteristic curve area consistently showed higher bias under class imbalance. Finally, we applied these metrics to a glioma tumor grading task using external datasets. This study provides a systematic comparison of commonly used metrics and offers practical guidance for selecting appropriate measures in multi-class classification tasks.