Economic Value of AI in Radiology: A Systematic Review.

Molwitz Isabel, Ristow Inka, Erley Jennifer, Akinci D'Antonoli Tugba, Tejani Ali S, et al.

View Original ↗
AI 導讀 academic policy 重要性 5/5

放射科採購 AI 必看:按件計費可能拖垮預算,特異度過低恐引爆天價複檢成本。

  • 大量篩檢宜採買斷制,按件計費恐讓單人成本暴增 19 美元。
  • 特異度若低於 87%,偽陽性引發的後續切片成本將拖垮預算。
  • 若原有閱片時間少於半分鐘,導入軟體反而會因確認標記徒增成本。

導入 AI 真的能幫科部省下經費嗎?真實世界數據指出,若採用按件計費模式,引進乳房攝影輔助診斷反而會讓每位受檢者成本暴增最高達 19 美元,甚至讓聯邦醫療保險整體支出從 6.6 億狂飆至 9.6 億美元。盲目採購很可能直接拖垮整體預算。

放射醫學擁抱演算法的財務考驗與文獻篩選

面對逐年攀升的影像檢查量與專科醫師短缺,人工智慧似乎是解決工作流程擁塞的最佳解藥。自 2015 年以來,美國在醫療影像 AI 領域已投入高達 35 億美元的資金。各大廠牌無不宣稱自家的產品能縮短閱片時間、降低輻射劑量並改善排程。然而,多數新創公司與研究機構往往只強調模型在測試集上的敏感度與特異度,卻極少有人回答醫院管理者最在意的核心議題:這套高昂的軟體到底能不能實質回本?為了量化這個問題,作者團隊在 PROSPERO 平台上註冊了詳盡的系統性文獻回顧,目的是徹底盤點演算法在放射科的真實經濟價值。

從 Methods 來看,研究團隊跨足 PubMed、Business Source Ultimate 以及 EconLit 等資料庫,搜尋了 2010 年 1 月至 2024 年 11 月期間的文獻。起初他們撈出了 1879 篇文獻,但經過嚴格篩選後,僅有 21 篇(約佔 1%)符合納入標準。高達九成的排除原因在於多數論文僅停留在「節省時間」這種軟性指標,完全沒有轉換成實際的金錢數字。為了解讀這 21 篇精華,我們必須先釐清幾個健康經濟學的關鍵術語:QALY(結合存活時間與生活品質的指標)ICER(多活一個健康年要多花多少錢),以及最重要的 WTP(健保願為一單位健康付的最高金額)。只有當 ICER 落在 WTP 門檻之內,這套軟體才具備引進的財務正當性。

Figure 4 呈現的模型分佈與研究方法學評分

把焦點拉到文獻池的具體組成與品質,這 21 篇研究覆蓋了不同技術領域。其中佔據最大宗的是機器學習(共 10 篇,48%,且高達 9 篇屬於深度學習),其次為傳統的電腦輔助診斷(共 7 篇,33%),而自然語言處理與假想模型的佔比則相對邊緣(各佔 2 篇,10%)。若以影像設備區分,電腦斷層佔據 29%、一般 X 光佔 24%、乳房攝影 19%、磁振造影 14%。最常被探討的臨床解剖區域則是乳房與胸腔,這主要歸功於各國積極推動的乳癌與肺結核公衛篩檢計畫。

為了客觀檢視這些報告的質量,作者揚棄了僅看報告格式的 CHEERS,改採 CHEQUE(專評健康經濟學分析品質的工具)。這套計分系統能同步檢視方法學的穩健度與報告的透明度。如果細看 Figure 4,機器學習相關論文取得了最佳成績(方法學 70%、報告透明度 73%);電腦輔助診斷則落在中庸水準(方法學 60%、報告透明度 75%)。最糟的則是自然語言處理,其方法學得分僅有慘烈的 40%。此外,作者也點出一個普遍現象:許多探討假想模型的論文雖然圖表畫得精美(報告透明度 77%),但在成本估算與折現率的設定上卻破綻百出(方法學僅 66%),往往高估了軟體能帶來的潛在利潤。

Figure 4 各類別 AI 經濟學評估的品質分數

機器學習報告品質最佳,自然語言處理敬陪末座

Table 2 肺結核篩檢的算計與授權模式陷阱

進一步深究 Table 2,我們可以清楚看到將演算法投入真實世界後所遭遇的財務衝擊,而肺結核篩檢正是最鮮明的戰場。Bashir 等人探討了在巴基斯坦大規模使用 X 光進行肺結核篩檢的成本結構。他們對比了「行動篩檢車(每日 120 人)」與「固定院所(每日 40 人)」兩種情境。若不依靠軟體,行動篩檢車需要 50% 工時的資深醫師與 100% 工時的資淺醫師駐點;但若導入電腦輔助診斷,僅需 5% 工時的遠端資淺醫師協助覆核即可。表面上看似大幅節省了人事費,但當研究者將規模放大到全國 68.9 萬人次的篩檢量時,授權模式成了決定生死的關鍵。若採用買斷制(如 CAD4TB、InferRead),全國推廣成本確實較低;但若採購的是 pay-per-use(按件計費或超額加收模式) 的軟體(如 Lunit、qXR),全國總成本將在 265 萬至 1923 萬美元之間產生巨大震盪,甚至比純人工判讀還要昂貴。

將鏡頭轉向醫療資源更為匱乏的馬拉威,MacPherson 等人的研究帶來了更震撼的財務震撼教育。他們在當地醫院針對有咳嗽症狀的成人,評估了將軟體判讀加入 HIV 常規篩檢的效益。統計顯示,這套組合方案雖然能勉強提升微幅的 QALY(0.004 [95% CI: 0.003, 0.005]),但每次篩檢的成本卻增加了 20.14 美元。經由線性迴歸與拔靴法計算,其 ICER 高達每單位 QALY 4620.47 美元。然而,依照世界衛生組織基於馬拉威人均 GDP 所設定的 WTP 門檻,當地能負擔的極限僅為 400 美元。在 400 至 1200 美元的願付區間內,這套軟體具備成本效益的機率是殘酷的 0%。這證明了脫離當地經濟結構的醫材引進,終究只是空中樓閣。

Table 2 肺結核篩檢經濟效益之關鍵次群組
研究情境與地區對照基準關鍵經濟學指標最終結論
Bashir 等人 (巴基斯坦)雙人放射線專科醫師閱片全國推廣總成本介於 265 萬至 1923 萬美元買斷制省錢;按件計費模式則大幅增加成本
MacPherson 等人 (馬拉威)常規護理與臨床評估ICER 高達 4620 美元 (當地 WTP 僅 400 美元)完全不具成本效益 (達標機率為零)

各國願付價格與授權模式決定了最終命運

乳房攝影次群組的特異度與醫師閱片工時糾葛

若細看乳癌與肺癌篩檢的次群組分析,我們會發現軟體的效能表現與人類醫師的習慣,共同形塑了一筆複雜的經濟帳。在乳癌篩檢方面,Sato 等人的研究明確指出,由單一醫師搭配輔助軟體的作業模式,其初始建置成本絕對高於傳統的雙人醫師閱片。要讓軟體真正發揮財務正效益,必須同時滿足兩個嚴苛條件:第一,該單位的年篩檢量必須大於 2000 例;第二,軟體的特異度必須超越 87%。一旦特異度未達標,海量的偽陽性將引發排山倒海的召回重做、超音波確認甚至是侵入性切片,這些衍生成本將瞬間擊垮原先省下的人事費。

更令人跌破眼鏡的是 Guerreiro 等人關於閱片時間的次群組發現。多數人以為軟體能幫放射科醫師加速,但數據證實,若原先醫師的閱片速度極快(每位病患少於 0.5 分鐘),強行導入軟體反而會因為醫師必須分心確認與排除電腦標記的病灶,導致整體成本不減反增。唯有當人類原先的閱片時間超過 1.5 分鐘時,軟體的指引才能有效壓縮時間成本並產生財務結餘。無獨有偶,Killelea 等人回溯了 2001 至 2008 年間 Medicare 導入乳房攝影數位化與輔助診斷的歷史軌跡,發現每位受檢者成本從 44 美元攀升至 63 美元,讓整體醫療支出飆升至 9.6 億美元。相對地,Ziegelmayer 等人在高收入國家探討肺癌篩檢時,發現在 WTP 高達 100,000 美元的寬鬆條件下,只要軟體準確率夠高(敏感度 97.7%、特異度 98.4%),醫院即使為單一病例支付高達 1240 美元的軟體費用,依然能在健保體系內被視為划算。

脫離單點思維與模型效能衰退的長期採購建議

從 Discussion 裡可以窺見作者團隊對於目前文獻侷限性的擔憂。將近一半的研究僅專注於硬體與軟體成本的計算,完全忽略了病患健康預後的長期追蹤,這使得評估結果極度偏向醫院內部的短期視角。此外,絕大多數的研究都未能納入 performance drift(模型隨時間導致準確率衰退) 的變數。當新一代掃描儀器上線或是病患族群特徵改變時,原先精準的模型可能會出現嚴重的偽陽性,如果沒有編列持續重新訓練的預算,長期的成本效益將大幅滑落。同時,各國法規的歧異也使得某些低成本解法無法套用,例如 Mansour 等人在非洲使用 WhatsApp 傳遞中風影像雖然極度便宜且具備高效益,但這在歐美及台灣的個資法規下根本無法合法落地。

作為一線放射科的實務工作者,我們在面對廠商推銷時,絕不能被單純的敏感度或 AUC 數字給迷惑。未來的軟體採購不應只侷限於單一疾病的電腦輔助診斷,而必須轉向能優化整體工作流的整合平台(從自動排程、自然語言抽取報告關鍵字到警示未完成追蹤的病患)。學界也亟需一套能將 CLAIM 檢查表的技術驗證與 CHEQUE 的經濟學把關完美結合的新框架。在尚未取得扎實的真實世界成本數據前,過早大規模採購按件計費的黑箱演算法,不僅無助於紓解臨床壓力,更可能成為科內財政的巨大破口。

引進任何演算法前,務必先拿科內每年該品項的檢驗量乘上按件計費費率估算,若軟體特異度低於 87%,且單張閱片時間少於半分鐘,就請直接退回這份採購案。

Abstract

Purpose To summarize the evidence of artificial intelligence's (AI's) economic value across the radiologic workflow. Materials and Methods A comprehensive search of PubMed, Business Source Ultimate, and EconLit was conducted for original research articles published between January 2010 and November 2024. Medical Subject Headings and keywords included "artificial intelligence/machine learning/deep learning/natural language processing," "radiology," and "economic value/cost/budget/revenue/efficiency." Studies were selected based on explicit quantification of economic outcomes, excluding those with only soft outcome criteria like time savings without cost quantification. Study quality was assessed using the Criteria for Health Economic Quality Evaluation. Results From the initial 1879 search results, 21 studies (1%) met the inclusion criteria. The majority evaluated machine learning tools (10 of 21[48%], nine on deep learning), followed by computer-assisted diagnosis (CAD, seven of 21 [33%]), natural language processing (NLP, two of 21 [10%]), and hypothetical AI models (two of 21 [10%]). AI demonstrated economic value through cost savings or incremental cost-effectiveness ratios in resource-intensive tasks, when accuracy matched human performance and costs were fixed. For instance, AI-based lung cancer screening achieved incremental cost savings of up to $242 U.S. dollars (USD) per patient. AI increased costs when specificity was lower than humans' or when using pay-per-use models, as observed with CAD systems raising mammography screening costs by up to $19 USD per patient. In fast tasks such as radiograph evaluations, AI showed value in settings with radiologist shortages. AI reduced costs through protocol optimization and increased revenue via improved follow-up compliance. Conclusion AI's value in radiology is context dependent, varying with task complexity, examination volume, and implementation model. Further high-quality economic evaluations are essential.