Impact of Label Noise from Large Language Model-generated Annotations on Evaluation of Diagnostic Model Performance.

Chavoshi Mohammadreza, Trivedi Hari, Mansuri Aawez, Newsome Janice, Sanyika Chiratidzo Rudado, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

盲目採取多位專家的多數決反而會拉低 AI 效能!評估標註者的「可學習性」才是建立強大黃金標準的關鍵。

  • 傳統多數決會將大量雜訊混入模型,導致外部 F1 分數僅剩 0.254,效能極差。
  • 剔除低一致性專家、僅用高可學習性標註組成的模型,外部效能可翻倍躍升至 0.438。
  • 時序分析出現反直覺結果:五小時前的臨床預測權重,竟然高於死亡前一小時的數據。

集合 11 位重症專家的多數決來訓練 AI 模型,其外部驗證的 F1 micro 分數竟然會慘跌到 0.254。這徹底打破了醫學影像與預測模型高度依賴「多數決即為黃金標準」的迷思。研究數據明確指出,與其盲目統合所有專家的意見,不如先剔除標註邏輯自相矛盾的專家,僅採用具備高「可學習性」的專家標註,能將外部驗證效能大幅翻倍至 0.438。這對於經常面臨主觀判讀分歧的放射科來說,是建構標註資料庫時的重大變革。

11 位專家的分歧與 ICU-PSS 標註挑戰

傳統監督式機器學習經常預設訓練資料的標籤絕對正確,忽略了類別雜訊的存在。在醫療場域中,即便是經驗豐富的專科醫師,也常因認知負荷、個人偏誤或判斷標準不同而產生顯著分歧。本研究為了量化這種標註不一致性對 AI 決策系統的影響,深入探討了重症監護病房的臨床決策情境,並試圖釐清人類專家的標籤雜訊如何污染最終的模型效能。

資料集源自格拉斯哥伊莉莎白女王大學醫院的重症系統。研究團隊邀請了 11 位 ICU 主治醫師,獨立針對 60 筆病患資料進行五級別的 ICU-PSS 評分(A 代表相對穩定,E 代表嚴重心血管不穩定)。每筆病患資料包含了六項臨床預測變數:兩種藥物劑量與四種生理數值。統計結果顯示,這 11 位專家在內部驗證時的 Fleiss’ κ(衡量三位以上專家標註一致性的指標) 僅有 0.383,屬於「尚可」的一致性,證明了即便在明確定義的評估工具下,人類專家的判斷依然存在極大的個體變異。

為了進一步驗證這些變異的影響,研究人員針對這 11 位專家的標註資料,分別訓練出專屬的 RF(用多棵決策樹投票的機器學習算法)DT(依據規則像樹枝般分岔的分類模型)。在這個階段,模型的內部驗證 F1 micro 介於 0.50 到 0.77 之間。這個內部 F1 分數在此處被賦予了一個重要的新定義:可學習性。它代表了該專家的臨床思維是否具備高度一致性,使得機器學習演算法能夠輕易捕捉並重現其決策邏輯。

從 QEUH 到 HiRID 的靜態與時序外部驗證

為了評估這 11 個專家模型在真實世界中的泛化能力,研究團隊採用了另一個完全獨立的外部重症資料庫 HiRID。外部驗證的核心任務被設定為二元分類的極端臨床決策:預測病患將在下一個小時內「存活轉出」或是「病逝於重症病房」。這項設計直接對應到放射科急診值班時,經常需要判斷病患是否具備立即生命危險的決策壓力。

在靜態外部驗證階段,HiRID 資料集包含了 2600 筆資料,其中 1300 筆對應存活轉出,1300 筆對應死亡。專家模型原本輸出的 A-E 五級預測,被映射到二元分類中(A 視為存活轉出,E 視為死亡)。此外,為貼近真實臨床情境,研究進一步引入了 Time-series(隨時間連續紀錄的數據) 的時序外部驗證。時序資料集包含了 1064 位病患在轉出或死亡前連續五個小時的動態生理讀數,總計 5320 筆紀錄。

在時序驗證中,每個病患的最終狀態預測由過去五小時的預測結果加權總和而來,模型輸出被視為 1 到 5 的序數。研究團隊更進一步對比了「極端」與「中性」兩種不同的閾值切分點,藉此觀察模型在不同嚴格程度的定義下,效能波動的狀態。這種從靜態切片到動態追蹤的驗證設計,精準模擬了醫師在面對動態惡化病患時的決策過程。

Figure 3 與 Figure 5 展現的極低外部一致性

當 11 個專家模型應用於靜態 HiRID 外部資料庫時,結果令人震驚。Figure 3 顯示這 11 個模型在同一批外部病患上的預測分佈截然不同。模型間的平均成對 Cohen’s κ(衡量兩位專家標註一致性的指標) 只有 0.255,處於極低度一致性區間。這意味著,由不同主治醫師標註所訓練出來的 AI 模型,在面對相同的外部新病患時,會給出完全不同的臨床處置建議。

若細看兩種極端決策的情境,Figure 5 的數據提供了更深層的洞見。當聚焦於預測病患轉出重症病房時,平均成對 Cohen’s κ 僅 0.21,Fleiss’ κ 更低至 0.174。相對而言,在預測病患死亡的情境下,Cohen’s κ 略升至 0.28,Fleiss’ κ 則為 0.267。這說明了臨床專家在面對「死亡」這種高風險狀態時,判斷標準較為趨同;但在「病情穩定可轉出」的認定上,則受到各自防禦性醫療偏好或主觀經驗的強烈干擾。

此外,個別專家的傾向也毫無保留地被 AI 繼承。例如 C10 模型在預測存活轉出時數量極少,屬於「最不願放行」的保守派;而 C2 與 C4 模型則相對激進,能正確抓出最多的存活轉出案例。這給放射科帶來極大的反思:當我們使用外部商業 AI 軟體時,該軟體背後所反映的,究竟是哪一種臨床流派的判讀風格?

不同臨床決策情境下的專家預測一致性
預測情境Cohen's κ (成對平均)Fleiss' κ (群體評估)一致性等級
整體二元決策預測0.2550.236極微 / 尚可
預測病患存活轉出0.2100.174輕微
預測病患重症死亡0.2800.267尚可

外部 HiRID 驗證資料集(2600 筆病歷)的統計結果

拋棄傳統多數決:TMV 模型 F1 分數躍升至 0.438

醫學影像研究中,當多位放射線醫師標註出現分歧時,最常見的做法有兩種:一是交由資深主任拍板(超級專家假說),二是採取所有專家的多數決。然而,本研究的數據狠狠否定了這兩種主流做法的可靠性。

首先檢視「超級專家假說」。研究使用內部驗證效能與外部驗證效能的相關性來作為超級專家的代理指標,結果發現兩者的 Pearson 相關係數僅有 0.51,而在中性時序驗證中,相關係數甚至變成了 -0.51。這表示內部表現最好的模型,在外部完全不一定吃香。甚至內部效能極高的 C2 與 C8 模型(代表他們的自身邏輯非常連貫),在外部預測的 Cohen’s κ 也僅有 0.27,顯示即使是具備高度自我一致性的菁英專家,彼此的臨床觀點依然存在巨大鴻溝。

接著評估傳統多數決。當研究者將所有 11 位專家的預測綜合,建立傳統多數決模型時,其外部驗證的 F1 micro(綜合考量精準度與召回率的總評指標) 慘澹地落在 0.254。但是,當研究者先以「可學習性」把關,僅挑選內部驗證 F1 > 0.7 的高表現專家來組建高學習性多數決模型時,效能顯著躍升至 0.438,幾乎翻倍,甚至超越了單獨存在的所有個別專家模型。這證明了混合「自相矛盾的低品質標註」只會稀釋黃金標準的價值,先篩選標註者的可學習性,才是獲取高質量共識的關鍵。

剔除低品質標註者對共識模型效能的影響

靜態外部驗證資料集中的 F1 micro 表現差異

時序驗證的意外翻轉:五小時前預測權重更高

在真實的臨床環境中,醫師判讀往往仰賴過往的趨勢變化而非單一時間點的截面。因此,研究團隊利用 1064 位病患在轉出或死亡前五個小時的連續資料,再次考驗這些模型的穩定度。結果發現,所有模型在中性閾值設定下的時序資料集表現,皆優於靜態資料集。這表明加入時間維度的趨勢評估,確實有助於提升分類決策的穩健度。

為了探究這五個小時中,哪一個時間點的預測對最終決策最具影響力,團隊訓練了一個 LR(用來預測二元分類機率的統計模型) 來分析各時間點的勝算比。這裡出現了一個極度違反直覺的發現:對多數專家模型以及高學習性多數決模型而言,病患轉出或死亡前「第五個小時」的預測,其重要性竟然高居首位。

反觀距離事件發生最近的「前一個小時」,其預測權重反而在多數模型中墊底。臨床上理應認為越靠近轉出或死亡的生理數據,越能反映最終狀態;但實際上,五小時前的生理軌跡變化可能早已決定了後續的發展。這提醒了影像科醫師,在訓練預測腫瘤惡化或破裂的 AI 模型時,長期的 baseline 趨勢特徵,可能比急性期的單次影像具有更高的預測價值。

模型適用限制與放射科建立 AI 真實標準的啟示

作者在討論環節坦承了本研究的一些限制。首先,QEUH 訓練集中被標註為 E(極重度)的樣本相對稀少,這在一定程度上限制了模型在預測「死亡」事件時的穩健度與深度對比空間。未來的研究需要導入類別更為平衡的資料庫來強化極端事件的預測力。

對於放射科而言,這篇論文提供了極具顛覆性的實務操作指南。我們常在建立腫瘤邊界切割、狹窄程度分級的資料庫時,陷入「找越多人標註、取平均值越好」的陷阱。本文明確指出,雜訊會互相干擾,共識決不能建立在邏輯混亂的基礎上。未來在啟動標註專案前,務必先讓每位主治醫師標註同一批測試集,訓練一個簡單的分類器來跑內部驗證,藉此檢驗每位醫師的「可學習性」。

剔除那些今天跟明天判讀標準不一、內部效能低落的標註者,僅保留自我邏輯高度一致的醫師資料來進行多數決或模糊共識整合。唯有如此,放射科才能真正在有限的人力資源下,建立起經得起真實世界考驗的高效能 AI 診斷模型。

下次外包 AI 標註專案時,別急著把三位主治醫師畫的腫瘤框線直接取交集;先拿測試集評估,誰的標註邏輯混亂到連機器都學不起來,就大膽把他剔除吧。

Abstract

Purpose To systematically examine how large language model (LLM)-generated label noise impacts real-world evaluation of artificial intelligence (AI) binary classification model performance. Materials and Methods A simulation framework was developed to evaluate how LLM label errors affect estimated model performance. A synthetic dataset (10 000 cases) was generated across low- (10% and 30%) and high-prevalence (70% and 90%) conditions. LLM sensitivity and specificity values varied independently from 90% to 100%. AI binary classification models were simulated, with true performance ranging from 90% to 100% for sensitivity and specificity. Apparent performance was calculated with LLM-generated labels as the reference standard. Best- and worst-case performance bounds were calculated analytically, and empirical uncertainty distributions were obtained via Monte Carlo trials. Results Apparent performance was highly sensitive to LLM label quality, with estimation bias strongly modulated by disease prevalence. In low-prevalence settings, small reductions in LLM specificity substantially underestimated model sensitivity. For example, at 10% prevalence, an LLM with 90% specificity yielded an apparent sensitivity of ~53% despite being a perfect model. In high-prevalence conditions, LLM sensitivity reduction led to model specificity underestimation. At 90% prevalence, lowering LLM sensitivity from 100% to 90% reduced apparent specificity from 100% to ~53%, despite perfect true specificity. Monte Carlo simulations revealed consistent downward bias, with apparent values often falling below the true model performance even when within theoretical error bounds. Conclusion LLM-generated labels can introduce systematic prevalence-dependent bias into model evaluation. In low-prevalence tasks, ensuring high LLM specificity during label extraction was critical, as false-positive labels disproportionately biased estimated sensitivity and led to model performance underestimation.