Health-care AI is here. We don’t know if it actually helps patients.
65% 美國醫院已用 AI 預測工具,卻沒人追蹤它是否真正改善了病患的健康結果
- 65% 美國醫院已部署 AI 預測工具,但只有 2/3 評估過準確性,評估偏見的更少
- AI scribe 讓醫師滿意並減少過勞,但對病患健康結果的實際影響目前毫無數據
- Wiens 呼籲:AI 工具精準性不等於臨床效益,需第三方在真實場景嚴格驗證
美國 65% 的醫院已部署 AI 預測工具,卻只有三分之二評估過準確性,追蹤「是否真正幫到病患」的醫院更是少數。密西根大學與多倫多大學研究者在《Nature Medicine》指出:工具「精準」不等於「臨床受益」——而這個問題,醫療界目前沒有好的答案。
65% 的美國醫院用 AI 預測工具,評估卻嚴重落後
根據 2025 年 1 月由明尼蘇達大學 Paige Nong 團隊發表的研究,美國約 65% 的醫院已使用 AI 輔助預測工具。然而,這批醫院中只有大約三分之二評估過工具的準確性;評估工具是否存在偏見(bias)的醫院比例更低。
這組數字本身說明了問題:工具已大規模落地,但對實際效果的評估,遠遠落後於部署速度。密西根大學電腦科學家 Jenna Wiens 表示,投身醫療 AI 研究的前十年,她主要在向臨床醫師「推銷」這項技術;過去幾年卻像「開了關一樣」翻轉——醫療機構不只表現出濃厚興趣,更開始快速大量地部署 AI 工具。
問題在於,許多機構並沒有嚴格評估這些工具究竟運作得有多好。
| 指標 | 數據 |
|---|---|
| 美國醫院已部署 AI 輔助預測工具 | 約 65% |
| 其中有評估工具準確性的醫院 | 約 2/3 |
| 有評估工具偏見的醫院 | 低於 2/3(原文無精確數字) |
資料來源:Paige Nong 等,明尼蘇達大學,2025 年 1 月
AI Scribe 讓醫師過勞減少,但病患得益未知
目前醫院中最廣泛使用的 AI 工具類型之一,是「AI 書記員(AI scribe)」,也稱為「環境 AI(ambient AI)」。這類工具能「聆聽」醫師與病患的對話並自動轉錄摘要,讓醫師可以把全部注意力放在眼前的病患,而不是邊問診邊打病歷。
一位任職紐約某大型醫療中心的 AI 開發者告訴記者,醫師們對這類工具「欣喜若狂」——大幅減少了文書工作的時間。早期研究也支持這個說法:AI scribe 有助於降低臨床醫師的職業倦怠感(burnout)。
然而,Wiens 指出了關鍵的空白:「研究者評估了醫師與病患的滿意度,但沒有真正評估這些工具如何影響臨床決策。我們根本不知道。」工具讓醫師更開心,是可以測量的;但這份開心是否最終換來更好的病患健康結果,目前沒有系統性的數據。
準確率高不代表病患受益:Nature Medicine 的核心論點
Wiens 與多倫多大學的 Anna Goldenberg,在《Nature Medicine》的論文中點出了核心:「精準」(accurate)與「有效」(effective)之間,存在一個尚未被填補的研究空白。
舉一個具體的例子:AI 可以加速胸部 X 光的判讀速度。但這個速度提升,對醫師實際的臨床決策產生了什麼影響?醫師看到 AI 的分析結果後,會如何調整與病患的互動方式,又如何影響治療建議?最終病患的健康結果是否有所不同?這些問題,目前都沒有系統性的回答。
論文強調,這些答案可能因醫院、科別、臨床工作流程而大相徑庭,也可能因醫師資歷不同而有所差別。一個對資深醫師有效的輔助工具,不一定對住院醫師產生相同效果——甚至可能產生截然不同的影響。
認知副作用與偏見評估:被系統性忽略的問題
除了療效不確定,Wiens 還指出另一個被普遍忽視的潛在問題:認知副作用。教育領域已有研究顯示,AI 工具會影響人類認知處理資訊的方式。那麼,AI scribe 是否也會改變醫師「思考病患資訊」的模式?醫學生長期使用後,是否會發展出不同的臨床推理習慣?Wiens 直白地說:「我們喜歡節省時間的工具,但我們必須思考這些非預期的後果。」
偏見問題同樣值得警惕。即便在 Nong 的研究中,那些評估了準確性的醫院,也只有更少的比例去評估工具是否對不同病患族群(如特定種族或性別)產生不一致的預測結果。這意味著,目前部署中的 AI 工具,可能在某些族群中運作良好,卻在其他族群中表現不佳,而醫院方面對此毫無所知。
不是全 AI 或零 AI:Wiens 的務實立場
面對這些問題,Wiens 的立場不是「停止部署 AI」。她明確表示相信 AI 改善臨床照護的潛力,也不希望阻礙採用。她的核心訴求是:醫療機構本身,或是研發工具公司以外的第三方機構,需要在特定情境下嚴格評估工具的實際效果。
若不做這件事,最壞的情況是某些工具讓病患狀況更差;更可能的情況則是,AI 工具的效益並沒有醫療機構所假設的那麼大,但沒有人去發現這件事。她的最終觀點是:「未來的答案不是全靠 AI,也不是完全不用 AI,而是在兩者之間找到正確的位置。」
AI 工具讓醫師滿意,但那些部署了 AI 的醫院,究竟有多少真正測量過對病患的健康影響?