65% 美國醫院已用 AI 預測工具，卻沒人追蹤它是否真正改善了病患的健康結果

AI 導讀 technology AI 重要性 4/5

65% 美國醫院已部署 AI 預測工具，但只有 2/3 評估過準確性，評估偏見的更少
AI scribe 讓醫師滿意並減少過勞，但對病患健康結果的實際影響目前毫無數據
Wiens 呼籲：AI 工具精準性不等於臨床效益，需第三方在真實場景嚴格驗證

美國 65% 的醫院已部署 AI 預測工具，卻只有三分之二評估過準確性，追蹤「是否真正幫到病患」的醫院更是少數。密西根大學與多倫多大學研究者在《Nature Medicine》指出：工具「精準」不等於「臨床受益」——而這個問題，醫療界目前沒有好的答案。

65% 的美國醫院用 AI 預測工具，評估卻嚴重落後

根據 2025 年 1 月由明尼蘇達大學 Paige Nong 團隊發表的研究，美國約 65% 的醫院已使用 AI 輔助預測工具。然而，這批醫院中只有大約三分之二評估過工具的準確性；評估工具是否存在偏見（bias）的醫院比例更低。

這組數字本身說明了問題：工具已大規模落地，但對實際效果的評估，遠遠落後於部署速度。密西根大學電腦科學家 Jenna Wiens 表示，投身醫療 AI 研究的前十年，她主要在向臨床醫師「推銷」這項技術；過去幾年卻像「開了關一樣」翻轉——醫療機構不只表現出濃厚興趣，更開始快速大量地部署 AI 工具。

問題在於，許多機構並沒有嚴格評估這些工具究竟運作得有多好。

美國醫院 AI 預測工具部署與評估現況（2025 年 1 月研究）

指標	數據
美國醫院已部署 AI 輔助預測工具	約 65%
其中有評估工具準確性的醫院	約 2/3
有評估工具偏見的醫院	低於 2/3（原文無精確數字）

資料來源：Paige Nong 等，明尼蘇達大學，2025 年 1 月

AI Scribe 讓醫師過勞減少，但病患得益未知

目前醫院中最廣泛使用的 AI 工具類型之一，是「AI 書記員（AI scribe）」，也稱為「環境 AI（ambient AI）」。這類工具能「聆聽」醫師與病患的對話並自動轉錄摘要，讓醫師可以把全部注意力放在眼前的病患，而不是邊問診邊打病歷。

一位任職紐約某大型醫療中心的 AI 開發者告訴記者，醫師們對這類工具「欣喜若狂」——大幅減少了文書工作的時間。早期研究也支持這個說法：AI scribe 有助於降低臨床醫師的職業倦怠感（burnout）。

然而，Wiens 指出了關鍵的空白：「研究者評估了醫師與病患的滿意度，但沒有真正評估這些工具如何影響臨床決策。我們根本不知道。」工具讓醫師更開心，是可以測量的；但這份開心是否最終換來更好的病患健康結果，目前沒有系統性的數據。

準確率高不代表病患受益：Nature Medicine 的核心論點

Wiens 與多倫多大學的 Anna Goldenberg，在《Nature Medicine》的論文中點出了核心：「精準」（accurate）與「有效」（effective）之間，存在一個尚未被填補的研究空白。

舉一個具體的例子：AI 可以加速胸部 X 光的判讀速度。但這個速度提升，對醫師實際的臨床決策產生了什麼影響？醫師看到 AI 的分析結果後，會如何調整與病患的互動方式，又如何影響治療建議？最終病患的健康結果是否有所不同？這些問題，目前都沒有系統性的回答。

論文強調，這些答案可能因醫院、科別、臨床工作流程而大相徑庭，也可能因醫師資歷不同而有所差別。一個對資深醫師有效的輔助工具，不一定對住院醫師產生相同效果——甚至可能產生截然不同的影響。

認知副作用與偏見評估：被系統性忽略的問題

除了療效不確定，Wiens 還指出另一個被普遍忽視的潛在問題：認知副作用。教育領域已有研究顯示，AI 工具會影響人類認知處理資訊的方式。那麼，AI scribe 是否也會改變醫師「思考病患資訊」的模式？醫學生長期使用後，是否會發展出不同的臨床推理習慣？Wiens 直白地說：「我們喜歡節省時間的工具，但我們必須思考這些非預期的後果。」

偏見問題同樣值得警惕。即便在 Nong 的研究中，那些評估了準確性的醫院，也只有更少的比例去評估工具是否對不同病患族群（如特定種族或性別）產生不一致的預測結果。這意味著，目前部署中的 AI 工具，可能在某些族群中運作良好，卻在其他族群中表現不佳，而醫院方面對此毫無所知。

不是全 AI 或零 AI：Wiens 的務實立場

面對這些問題，Wiens 的立場不是「停止部署 AI」。她明確表示相信 AI 改善臨床照護的潛力，也不希望阻礙採用。她的核心訴求是：醫療機構本身，或是研發工具公司以外的第三方機構，需要在特定情境下嚴格評估工具的實際效果。

若不做這件事，最壞的情況是某些工具讓病患狀況更差；更可能的情況則是，AI 工具的效益並沒有醫療機構所假設的那麼大，但沒有人去發現這件事。她的最終觀點是：「未來的答案不是全靠 AI，也不是完全不用 AI，而是在兩者之間找到正確的位置。」

AI 工具讓醫師滿意，但那些部署了 AI 的醫院，究竟有多少真正測量過對病患的健康影響？

Abstract

I don’t need to tell you that AI is everywhere. Or that it is being used, increasingly, in hospitals. Doctors are using AI to help them with notetaking. AI-based tools are trawling through patient records, flagging people who may require certain support or treatments. They are also used to interpret medical exam results and X-rays. A…

Health-care AI is here. We don’t know if it actually helps patients.

65% 的美國醫院用 AI 預測工具，評估卻嚴重落後

AI Scribe 讓醫師過勞減少，但病患得益未知

準確率高不代表病患受益：Nature Medicine 的核心論點

認知副作用與偏見評估：被系統性忽略的問題

不是全 AI 或零 AI：Wiens 的務實立場

Abstract

🔗 相關推薦

GPT-5.5 完整重訓代理人模型，五項基準全面領先

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。