Access and Reimbursement for Artificial Intelligence in Radiology: A Macau Perspective.

Ieong Chon Man, Ieong Mei Leng, Kong Soi Chau

View Original ↗
AI 導讀 academic AI 重要性 4/5

非影像科醫師對純 AI 報告信任度僅 3.57 分,分析 12 項研究告訴你為何臨床端依賴放射科的最終簽核。

  • 在針對非影像專科的問卷中,複雜影像高達 95% 仍需放射科醫師背書,AI 獨立報告信任度僅 3.57 分。
  • 具備進階 AI 知識的放射科醫師,恐懼被取代的風險顯著下降(95% CI:0.21-0.90,p=0.03)。
  • RCT 試驗證實,輔助系統會讓資深頂尖專家在判讀困難乳癌時,敏感度反而顯著下滑 0.145。

非影像科醫師對純人工智慧產出的報告信任度僅有 3.57 分(滿分 7 分),但如果是經過放射科醫師覆核的混合報告,信任度會暴衝到 6.38 分。這篇收錄 12 項核心研究的文獻回顧點出一個事實:比起擔心演算法的技術能力,臨床端真正焦慮的是缺乏人類背書的醫療決策。即使是身處數位時代的醫學生,也有高達 56% 堅信單靠機器無法給出明確診斷。

從 513 篇篩選出 12 篇文獻的系統性檢視

探討臨床單位為何抗拒或接受新技術,必須仰賴嚴謹的文獻回顧。研究團隊遵循 PRISMA(系統性文獻回顧與統合分析指引)的標準流程,在 Ovid Medline 與 Embase 兩大資料庫中進行全面搜索。為了確保研究焦點集中在廣義的人工智慧,而非過於狹隘的演算法技術細節,團隊刻意排除了僅關注單一深度學習架構的純工程類文章。從 2000 年 1 月至 2023 年 1 月的初始 602 篇文獻中,扣除重複項目後剩餘 513 篇。

經過標題與摘要的初步篩選,團隊剔除了 445 篇不相關文獻,保留 68 篇進入全文審查階段。在這 68 篇當中,進一步排除了 32 篇回顧性質文章、13 篇社論與 11 篇評論,最終僅留下 12 篇符合嚴格收案標準的原始研究。這 12 篇包含了 4 篇質性研究、7 篇問卷調查以及 1 篇 RCT(將病患隨機分組以對比成效的試驗)。受試對象涵蓋了加拿大、歐洲、澳洲、沙烏地阿拉伯與美國的放射科醫師、非影像科臨床醫師與醫學生。

如果細看這些文獻對技術演進的定義,作者特別區分了舊版與新版系統的差異。「舊版 CAD(依賴固定規則的電腦輔助系統)」主要依靠「若發生 A 則判定 B」的靜態邏輯,缺乏自我更新能力;而當代文獻中探討的 AI 或 ML(能從資料中自動學習特徵的機器學習),則具備動態適應複雜病灶的能力。這種技術本質的轉換,正是推動近期相關學術發表量從每年 150 篇激增至近 800 篇的核心動力。

Figure 1 與高階知識的 0.90 反向關聯

要探討放射科醫師對 AI 的接受度,知識儲備量是決定恐懼程度的最大變數。在一項涵蓋 54 個國家、共 1041 位放射科醫師與住院醫師的跨國大型調查中,研究者發現整體有 38% 的受訪者對臨床導入 AI 感到恐懼,而 48% 則展現出開放與主動的態度。令人矚目的是,受訪者的知識層次與恐懼感呈現截然不同的統計走向。

根據文獻中的多變數分析結果,僅具備「基礎 AI 知識」的醫師,其產生恐懼感的風險顯著較高,勝算比來到 1.10 至 2.21 之間(95% CI,p = 0.01)。相反地,具備「進階 AI 知識」的醫師,其恐懼感大幅下降,呈現顯著的反向關聯(95% CI:0.21, 0.90,p = 0.03)。這意味著對演算法底層邏輯有深入理解的同行,反而更不擔心被技術取代。同樣的樂觀趨勢也出現在沙烏地阿拉伯的 714 人調查中,高達 89% 的放射科醫師認為 AI 絕對不可能完全取代人類。

從質性訪談的文獻來看,歐洲的放射科醫師普遍將這類技術視為減少重複性勞動的幫手。在一項包含 12 位放射科醫師與 6 位放射師的深度訪談中,多數受訪者明確指出,將單調的篩檢任務交給機器,能讓他們把精力集中在最具挑戰性的影像判讀上。這種認知上的轉換,正是促成早期採用的關鍵推動力。

放射科醫師對 AI 發展的恐懼程度風險
知識儲備程度勝算比 (95% CI)p 值臨床傾向
基礎 AI 知識1.10 - 2.210.01恐懼感增加
進階 AI 知識0.21 - 0.900.03恐懼感下降

具備進階知識的醫師恐懼感顯著較低

RCT 的高手懲罰效應與 0.145 敏感度下降

然而,演算法並非對所有層級的醫師都能帶來正面效益。在唯一一篇被納入的 RCT 研究中,Povyakalo 等人重新分析了 50 位專業人員判讀 180 張乳房攝影的表現,結果揭示了系統對不同資歷醫師的截然不同影響。對於 44 位判讀能力較弱(least-discriminating)的醫師而言,在面對 45 個相對簡單、演算法容易抓到的癌症病灶時,系統確實讓他們的敏感度提升了 0.016(95% CI:0.003, 0.028)。

但把焦點轉向金字塔頂端的資深專家時,數據卻呈現截然不同的走向。對於 6 位判讀能力最強的頂尖專家,在處理 15 個極度困難的癌症案例時,開啟電腦輔助系統反而會干擾他們的決策。具體數據顯示,使用輔助系統讓這些頂尖專家的敏感度顯著下降了 0.145(95% CI:0.034, 0.257)。這項反直覺的發現證明,現有模型在處理邊緣案例時產生的偽陽性或錯誤提示,會動搖資深醫師原本正確的直覺判斷。

這組數據也呼應了荷蘭團隊透過 24 場半結構化訪談所得到的結論。許多第一線醫師抗拒使用的核心原因,並不是擔心丟了工作,而是「缺乏經驗實證證明其能順暢融入現有工作流程」,以及「對系統在複雜病患上的診斷能力抱持懷疑」。當機器在簡單病灶上表現優異,卻在困難病灶上扯後腿時,就難以建立長期互信。

電腦輔助對不同資歷醫師的敏感度影響

新手獲益,但頂尖專家面臨困難案例時敏感度遭拖累

臨床端的 6.38 分信任度與 95% 的覆核需求

影像科內部的掙扎是一回事,轉介病患的其他專科醫師如何看待這些報告,則是另一層面的考驗。澳洲一項針對 88 位非影像科醫師的調查,精準量化了臨床端對演算法的不安全感。當面對一份「單純掃描」的影像時,仍有 35% 的臨床醫師堅持需要放射科醫師的第二意見;而當病況牽涉到「複雜掃描」時,這個比例更飆升至 95%。

研究團隊使用 0 到 7 分的李克特量表(Likert scale)來評估臨床醫師根據不同來源報告執行醫療處置的「安心程度」。純由放射科醫師撰寫的報告獲得了 6.44 分的高度信任;相比之下,純由演算法生成的報告僅獲得不及格的 3.57 分。有趣的是,如果是採用「混合模式」,即演算法初步打草稿並由放射科醫師最終簽發的報告,信任度則能穩住在 6.38 分,幾乎與純人工報告無異。

瑞士一項涵蓋 170 位醫學生、放射科與外科醫師的調查也印證了這個現象。整體而言,受訪者對引進新技術抱持正面態度(平均支持度達 8 分),且放射科醫師的支持度顯著高於外科醫師(p = 0.001)。但當問及「系統在達到極高準確率後,是否應該被允許『獨立』給出診斷」時,所有族群的平均同意分數瞬間暴跌至 3 分。這說明無論技術多成熟,人類守門人的角色在現階段仍不可或缺。

非影像科醫師依據報告執行處置的安心程度

滿分 7 分,混合模式幾乎與純人工報告無異

醫學生 17% 勸退率與選科意願的 p 值差異

新技術帶來的另一個隱憂,是潛在的人才流失。對於尚未進入職場的醫學生而言,「演算法即將取代影像科」的都市傳說確實影響了他們的職涯選擇。加拿大針對 322 位醫學生的調查明確指出,對未來可能面臨「職位被取代(displacement)」的焦慮,已經讓許多優秀人才對申請住院醫師卻步。

美國一項橫跨 32 所醫學院、回收 463 份問卷的大型研究提供了更具體的數字。有高達 40% 的受訪學生因為演算法的發展而對選擇放射科感到擔憂,51% 預測未來工作機會將會大幅萎縮。更關鍵的是,有 17% 原本將放射科視為第一志願的醫學生,因為這些顧慮而中途改變心意。當研究者請他們排除科技發展的影響,重新進行志願排序時,放射科獲得第一志願的比例高達 21.4%,兩者的排名差異達到了極顯著的統計學意義(p < 0.0001)。

不過,醫學生的恐懼程度也隨年資與認知而異。在一項針對 49 位學生的焦點團體研究中發現,雖然二年級醫學生對工作保障憂心忡忡,但即將畢業的資深醫學生卻顯得老神在在。多數資深學生達成了「技術只會輔助、不會取代」的共識,且普遍認為介入性放射科(IR)這類偏重實作的次專科,幾乎不會受到演算法崛起的任何衝擊。

針對 Discussion 的法規邊界與臨床應對策略

綜觀這 12 項研究,作者在 Discussion 中坦承,目前學界對於臨床導入遭遇的阻礙,研究數量依舊過於稀少。多數現存研究都過度聚焦在「會不會取代醫師」這個假議題上,反而忽略了更具破壞力的實務挑戰:例如不完整的基礎建設、缺乏標準化的工作流程,以及 CDSS(臨床決策支援系統,提示用藥或檢查的軟體)所帶來的警示疲勞。

除了心態上的抗拒,作者也點出了法律責任的歸屬困境。當系統發生偽陰性導致延誤治療,或是產生偽陽性引發不必要的侵入性切片時,責任究竟該由開發商、醫院還是簽發報告的醫師承擔?在缺乏明確法規架構的當下,大型醫療機構自然不敢貿然全面佈署。儘管美國 FDA 已經在 2019 年發布了針對動態學習模型的上市前審查討論草案,但要在臨床實務中建立不讓病患無辜承擔錯誤後果的究責機制,仍有很長的路要走。

對於第一線放射科醫師而言,與其被動擔憂,不如主動掌握話語權。研究顯示,有 52% 的住院醫師對參與相關研發抱持濃厚興趣,卻苦於沒有適當的指引。如果臨床醫師能深入參與這些工具的早期開發與院內測試環節,不僅能確保新系統真正解決臨床痛點(而非僅是工程師想像的痛點),更能有效消弭內部的抗拒聲浪,從被動的使用者轉化為技術規格的制定者。

臨床端對純 AI 報告的信任度只有不及格的 3.57 分,加上你的簽名背書才能穩住 6.38 分;與其擔憂被軟體取代,不如把焦點放在那 15 個連電腦都會害資深主治醫師掉敏感度的困難案例。