Access and Reimbursement for Artificial Intelligence in Radiology: A Singapore Perspective.
AI 戰場不在取代老鳥:新加坡證實深度學習是拉拔急診菜鳥的最強外掛
- 資淺醫師在 AI 輔助下,COVID 敏感度從 39% 暴增至 62%。
- 超過兩年經驗的老手加上 AI 後,整體 AUC 表現反而微幅下滑。
- 外部測試集效能衰退約 10%,跨系統部署必須嚴防領域偏移現象。
以為 AI 能輾壓放射科老鳥?本研究證實,半年資歷新手在 AI 輔助下,COVID-19 敏感度從 38.89% 暴衝至 62.50%,但兩年以上經驗的老鳥反倒未受惠。這清楚點出深度學習的最佳用途:拉拔初階醫師。
分辨三類胸部 X 光影像變化的急診分流需求
面對突如其來的傳染病疫情爆發,急診與發燒篩檢站往往會在第一時間湧入大量具備嚴重呼吸道症狀的病患。雖然反轉錄聚合酶連鎖反應(RT-PCR)被全世界公認為確診的唯一黃金標準,但在檢驗量能緊繃、耗時過長,或是需要快速決定病患去向與隔離層級時,影像學檢查便扮演了不可或缺的關鍵腳色。此時,胸部電腦斷層雖然具備極高的影像解析度與敏感度,卻同時伴隨著輻射劑量較高、單次掃描耗時較長且有嚴重院內感染控制風險等致命缺點,因此單張的胸部 X 光攝影依然是目前最常規、也最被廣泛採用的第一線檢查工具。然而,各類病毒性肺炎的影像特徵高度重疊,經常表現為非特異性的邊緣浸潤,對於剛進入臨床的資淺住院醫師而言,要在短時間內從一張平面、對比度有限的 X 光片中準確分辨是否為 COVID-19 感染,無疑是一項艱鉅的挑戰。
這份由新加坡團隊主導的研究,便試圖從臨床最真實的需求出發。作者們深知,在許多大型教學醫院中,負責判讀大批急診 X 光片的第一線人力通常是剛進入醫院的住院醫師。如果能開發出一套穩定且具備高辨識力的深度學習演算法,自動將胸部 X 光精準分類為正常、非 COVID-19 肺炎以及 COVID-19 肺炎三大類別,就能在病患進入下一道醫療程序之前,為這些年輕醫師提供一個有力的第二意見。除了追求純粹學術意義上的分類準確率之外,研究團隊更將重心放在探討人工智慧是否能確實提升資淺醫師的診斷信心與判讀表現。透過整合嚴謹的臨床實務設計與前沿的深度學習技術,他們期望這套工具能在醫療資源最為緊繃的危機時刻,發揮出實質的輔助效益。
從整體的系統驗證層面來看,過往許多針對疫情開發的深度學習模型,往往受限於訓練資料集規模過小,或是極度缺乏在真實臨床環境下的實際驗證。實驗室裡跑出的漂亮數據,一旦放進醫院內部的影像資訊系統,往往會因為不同機器的影像來源多樣性而遭遇嚴重的效能衰退。有鑑於此,這項研究特別強調使用獨立的外部資料集來進行嚴格的交叉驗證,並史無前例地實際招募了不同年資層級的住院醫師參與前後讀片實驗。這不僅僅是一次單純的演算法驗證,更是對人機協作模式的一次深度探索,為未來放射科導入各式自動化影像診斷工具,提供了極具價值的參考依據。
Table 1 涵蓋五千張影像與加權損失函數設定
為了打造出一套具備足夠泛化能力的深度學習分類模型,研究團隊從新加坡國家傳染病中心(NCID)與陳篤生醫院(TTSH)兩大核心院區,回溯性收集了在 2020 年二月至四月間拍攝的大量胸部 X 光片。這批海量影像全數交由兩位各自具備超過十五年臨床經驗的資深放射科醫師進行嚴格標註,作為網路訓練的黃金標準。在病患群體的劃分條件上,資料被嚴格劃分為三大明確組別:只要 PCR 檢驗為陽性且影像顯示有肺炎浸潤者,一律歸類為 COVID-19 肺炎;若 PCR 呈現陰性但影像確有肺炎特徵者,則歸為非 COVID-19 肺炎(涵蓋了其他類型的病毒、常見細菌或是黴菌感染引起的發炎);至於剩餘毫無明顯浸潤特徵的病患,則全數歸入無肺炎的健康控制組。
細看整個資料集的組成結構,內部資料庫共囊括了高達 5051 張影像,其中包含 607 例 COVID-19 肺炎確診案例、570 例非 COVID-19 肺炎,以及佔壓倒性多數的 3874 例無肺炎影像。這批龐大的影像被隨機打散,並精準按照 70%、10%、20% 的固定比例,劃分為用來學習的訓練集、調整參數的驗證集與最終檢驗的測試集。為了真實評估模型對於完全未知資料的環境適應力,以及後續給予住院醫師進行人機協作測試,團隊還另外準備了一組完全獨立的外部測試集,共包含 500 張影像(其中 COVID-19 佔 72 例、非 COVID-19 佔 49 例、無肺炎佔 379 例)。這組外部驗證資料雖然同樣來自陳篤生醫院,但收案的時間區段與內部訓練集完全錯開,藉此完美模擬了 AI 模型實際上線後即將面臨的真實時空變化。
在網路演算法的選擇與優化上,研究團隊果斷採用了 EfficientNet-b7(兼顧運算效率與特徵深度的架構) 作為特徵萃取的骨幹網路。考量到三種類別在收案數量上存在嚴重的分佈不平衡——無肺炎的健康案例數遠遠大於其他兩種肺炎類別——模型在訓練迴圈中特別導入了加權交叉熵損失函數(Weighted Cross-Entropy Loss)。這項關鍵的參數設定,能迫使神經網路在面對發生機率較低的少數類別(如 COVID-19 肺炎)時,一旦預測錯誤便給予極大的權重懲罰,有效避免網路因為想衝高總體準確率,而產生傾向一律預測為多數類別的偷懶偏差。整個神經網路模型在一台配置了雙張頂級 Nvidia 2080Ti 顯示卡的 Windows 10 高階工作站上進行高強度訓練,並從驗證的過程中挑選出 AUC 曲線面積最大、整體表現最穩定的權重參數,做為最終部署於虛擬主機上的正式版本。
| 類別 | 訓練集 | 內部驗證與測試 | 外部測試集 |
|---|---|---|---|
| COVID-19 肺炎 | 425 | 182 | 72 |
| 非 COVID-19 肺炎 | 399 | 171 | 49 |
| 無肺炎 | 2712 | 1162 | 379 |
| 總計 | 3536 | 1515 | 500 |
內部測試集與外部測試集之病患數量
Table 2 與 Table 3 跨演算法的外部測試表現
把焦點拉到演算法間的正面對決,作者將其與另外五個近期在國際期刊發表的知名深度學習工具(包含 Ahuja、nCOVnet、Vaid、Apostolopoulos 以及 CV19-Net)進行了比較,並以嚴格的 95% 信賴區間(CI)進行了多重統計檢定。檢視 Table 2 的整體比較數據,清楚展示了這場競爭極度懸殊的結果:在內部測試集上,本研究所提出的模型達到了高達 0.9520 的優異 AUC 表現(95% CI:0.9479–0.9585),在統計學上顯著且大幅度地優於其他所有對手。然而,當預測戰場轉移到收案時間點完全錯開的外部測試集時,所有受測演算法的表現都無一例外地出現了明顯的效能衰退,這赤裸裸地暴露了深度學習容易過度擬合單一訓練環境的共通缺陷。儘管如此,本研究的模型在嚴苛條件下依然強勢守住了 0.8588 的整體 AUC 表現(95% CI:0.8570–0.8623),將排名第二的 CV19-Net(僅有 0.7987)遠遠拋在腦後,證明了其網路架構設計具備了顯著較高的抗干擾穩健性。
若進一步拆解個別疾病類別的細部預測表現,Table 3 提供了更為透徹且切中要害的觀察視角。以臨床實務中最為關注的 COVID-19 肺炎分類為例,在面對充滿變數的外部測試集時,本研究模型的單類別 AUC 仍有 0.8196,敏感度來到 0.8333,特異度則維持在 0.7243 的水準。相比之下,表現居次的 CV19-Net 模型,其外部測試集的 COVID-19 敏感度僅勉強維持在 0.8194,且其特異度更是大幅跌落至不及格的 0.5958。這項巨大的數據差異顯示,其他的演算法在面臨未知的影像變化時,往往只能傾向透過大量發出偽陽性警報(也就是全面降低判定門檻)來維持表面的高敏感度;而本研究的模型則能在精準抓出可疑病灶的同時,保留了相對更佳的特異度表現。在急診滿床、醫療資源極度匱乏的龐大壓力下,盡可能減少這類無效的偽陽性警報,對於避免後端醫療量能消耗與不必要的病房隔離,具有相當重要的指標意義。
除此之外,區分 COVID-19 與非 COVID-19 肺炎一直被視為所有電腦視覺模型的共同罩門,因為兩者在早期的雙側毛玻璃狀病灶分佈與紋理特徵上具有極高相似性。儘管如此,本研究透過網路深度的極致優化,成功將非 COVID-19 肺炎的外部特異度維持在 0.7073 的水準,大幅超越競爭對手,再次證實了這套演算法具備極高的臨床鑑別價值。
| 演算法模型 | 內部測試 AUC | 外部測試 AUC |
|---|---|---|
| Ahuja | 0.8982 | 0.7680 |
| nCOVnet | 0.8876 | 0.6837 |
| Vaid | 0.9021 | 0.7402 |
| Apostolopoulos | 0.9279 | 0.8162 |
| CV19-Net | 0.9395 | 0.7987 |
| Ours (EfficientNet-b7) | 0.9520 | 0.8588 |
所有模型在外部集均出現效能衰退
Table 4 呈現的年資與 AI 獲益反比效應
這篇論文中最引人入勝、也最貼近放射科臨床日常的部分,莫過於他們設計了一場極具巧思的人機協作讀片試驗。研究團隊特別找來了三位處於不同訓練階段的年輕住院醫師(分別為擁有 6 個月看片經驗的 JR1、1 年經驗的 JR2 以及超過 2 年經驗的 JR3),讓他們先在毫無任何電腦輔助的情況下,連續盲讀 500 張來自外部測試集的急診 X 光片。接著,研究設計刻意安排了長達三個月的「洗脫期」,以確保受試醫師徹底遺忘原本的影像記憶與特定的解剖特徵。三個月後,同樣的三位住院醫師再次面對完全同一批影像進行判讀,但這次系統會同步提供由演算法生成的各類別預測機率,以及用來標示可疑病灶的彩色熱區圖。
檢視 Table 4 呈現的整體成果,我們發現了一個非常明確且具備深刻意涵的現象:住院醫師從深度學習模型獲得的好處,與他們的臨床年資呈現近乎完美的負相關。對於年資最淺、幾乎還在摸索階段的 JR1 而言,無輔助時的整體 AUC 僅有 0.7813,但在 AI 全力加持後,這個數字顯著飆升至 0.8482,其衡量一致性的 Cohen's kappa 分數更是達到 0.5574;年資一年的 JR2 也順利從原先的 0.8214 進步到 0.8511。然而,對於經驗最豐富、已經準備邁向主治醫師門檻的 JR3 來說,他在無輔助狀態下就已經具備了傲視群雄的 0.8657 高分,有了 AI 大張旗鼓的機率與熱圖幫忙之後,整體的 AUC 反而微幅降至 0.8609。這強烈意味著過度豐富的額外資訊,反而可能干擾了具備成熟經驗醫師原本流暢的綜合判斷邏輯。
若將目光轉向 Table 5 針對單一疾病類別的深度剖析,能看到更多細緻且反差極大的細節。最震撼的數字無疑出現在 JR1 對 COVID-19 肺炎的診斷敏感度上:在完全沒有提示時,他只抓出了少得可憐的 38.89% 確診病患,這在傳染病防治的實務上形同放任過半數的帶原者回到社區;但有了模型給予的機率分佈與病灶熱圖引導後,他的敏感度被硬生生拉抬到了 62.50%。但這份進步並非完全沒有代價:為了配合系統抓出更多隱藏的病例,JR1 在分辨 COVID-19 時的特異度從原本的 0.9159 妥協下滑到了 0.8598,意味著他變得更容易對輕微浸潤發出偽陽性警報。對於年資滿一年的 JR2,AI 帶來的增益同樣不容小覷,其 COVID-19 的敏感度由 0.5000 穩步提升至 0.5833。然而,原本表現就已經非常優異的 JR3,在導入系統後卻出現了有趣的化學變化:他對於 COVID-19 的敏感度不僅沒有跟著上升,反而從未輔助時的 0.6250 微幅倒退至有輔助時的 0.5972,僅有在辨識無肺炎影像時的敏感度從 0.8681 被推升到了 0.9208。這些生硬的百分比數據背後,其實生動地描繪了臨床第一線的真實樣貌:初階醫師極度仰賴明確的特徵標示來建立下刀或隔離的信心,而資深醫師卻極易在自身常年累積的直覺經驗,與機器給出的非預期熱區之間產生猶豫與衝突。這種「意見相左」時的心理拉扯,最終反而拉低了老手在某些細項上的判斷果斷度。
經驗越淺,AUC 提升幅度越顯著
Figure 4 熱圖輔助與領域偏移的現實挑戰
從實際臨床應用的視覺介面來看,團隊導入了 Grad-CAM(用梯度標示決策關鍵區域的熱圖技術) 來產生覆蓋於原始影像上的熱區圖,試圖讓演算法不再只是一個只會吐出機率冷冰冰數字的黑盒子。正如 Figure 4 論文中精心展示的輸出範例,整套系統能同步在同一個畫面上呈現原始無標記影像、加上藍圈精準標示的提示區塊、疊加高彩度熱圖的疊合影像,以及三種類別各自的具體機率長條圖。這套直觀的視覺化介面不僅能明白告訴住院醫師「這名病患可能得了什麼病」,更能明確用亮色區塊指出「模型是因為看到了肺部哪個區塊的紋理變化才這麼猜測」。所有的受試年輕醫師在事後訪談回饋中均一致表示,這樣具備強大視覺衝擊力的呈現方式,大幅提升了他們在打上最終報告確認鍵時的自信心,尤其是在面對急診室最棘手的邊緣性瀰漫浸潤時更是如此。
儘管展現了如此優異的潛力與臨床輔助價值,作者依然在討論章節毫不避諱地坦承了這項研究的幾何先天限制與適用邊界。首先,雖然該模型在外部測試集的數據表現明顯優於其他國際期刊發表的方法,但若直接與內部的完美測試集相比,整體的 AUC 依然無可避免地發生了將近 10% 的巨幅衰退。這種效能的斷崖式滑落被學界稱為領域偏移(Domain Shift)現象,也就是當收案的時間跨度、機器的硬體參數設定或病患族群本身組成發生微小改變時,原本在封閉實驗室裡百發百中的神經網路,就會開始出現水土不服的錯亂反應。這份警訊強烈提醒了所有的放射科從業人員與醫院資訊主管,即便軟體廠商拿出了再漂亮的 FDA 驗證數據,一旦將任何 AI 軟體導入自家醫院的影像儲傳系統(PACS)中,都絕對必須先經歷一段本土化資料的重新除錯與重新適應期,絕不可盲目信任原廠的宣傳數字。
此外,試驗設計中為了洗去受試者記憶而安排的長達三個月洗脫期,雖然在實驗法理上能有效消除影像記憶的殘留效應,但在真實世界裡卻也帶來了一個研究者無法完全控制的干擾變數:在這三個月緊湊且高壓的急診臨床輪訓工作中,這三位年輕的住院醫師本身的解剖學知識與閱片功力極可能已經發生了實質性的跳躍進步。也就是說,第二次測驗中我們所觀察到的高分與進步幅度,可能有一定比例是來自於醫師個人知識庫的成長與進化,而不完全是機器的功勞。放眼未來,研究團隊正積極計畫開發具備測試期訓練(Test-time training)前沿技術的領域適應模型,讓演算法在遇到完全陌生全新資料的瞬間,能在背景自動進行權重微調。期盼透過這種動態適應的機制,能徹底解決跨院域部署時最讓人頭痛的效能折損問題,真正做到隨插即用的完美境界。
在導入任何胸部影像輔助軟體時,請將它指派給值第一班的 R1 或 R2;對於資深的總醫師或主治醫師,過多的熱圖提示反而可能造成判斷上的干擾與效能遲滯。