Between automation and alienation: rethinking AI's role in radiologist well-being.

Can Elif, Nawabi Jawed

View Original ↗
AI 導讀 academic AI 重要性 4/5

用一般照片訓練的 Faster R-CNN 物件偵測架構,能在每張圖僅 0.3 個假陽性的嚴苛條件下,精準框出 90% 的乳癌病灶,完勝傳統 CAD 系統。

  • 公開測試集達 AUC 0.95,在八萬筆盲測資料的 DREAM 挑戰賽中以 AUC 0.85 奪亞軍。
  • 嚴格門檻下(0.3 FP/image)保有 0.90 敏感度;放寬至 3 FP/image 即可抓出所有漏診病灶。
  • 將乳房攝影視為 3D 壓迫結構,特意調低 RPN 與 NMS 的重疊比例閾值,成功解決正樣本過少問題。

拿普通照片訓練的通用物件偵測模型,不加任何醫學先驗知識,抓乳癌的精準度卻能超越傳統精心設計的專用輔助軟體——在公開測試集達到驚人的 AUC 0.95。這套把乳房攝影當作「找貓狗」來解的深度學習架構,不僅在八萬筆資料的挑戰賽拿下亞軍,更證明了單純讓模型標定可疑病灶,遠比給出整張影像的單一風險機率更符合放射科的日常閱片邏輯。

傳統電腦輔助偵測的瓶頸與三成漏診率困境

乳癌作為全球女性最常見的癌症以及主要的癌症死因,使得乳房攝影篩檢成為降低死亡率的關鍵防線,據統計可降低高達 38% 至 48% 的乳癌死亡率。在歐盟的二十八個成員國中,已有二十五個國家正在規劃或實施這類篩檢計畫,以期在早期階段進行診斷與治療。然而,在標準的篩檢流程中,放射科醫師必須從兩個角度檢視每側乳房的 X 光影像,這種高度重複且單調的閱片過程極易引發視覺疲勞與注意力衰退。

多項回溯性盲測研究指出,高達 20% 到 30% 的確診癌症,其實早就在前一次「正常」的篩檢影像中留下了蛛絲馬跡。即使近年來全視野數位乳房攝影 FFDM(解析度更高且對比更好的數位 X 光技術) 已經廣泛普及,這種錯失病灶的問題依然無所不在。根據文獻統計,人類醫師平均的篩檢敏感度約落在 77% 至 87% 之間,特異度約在 89% 至 97%。更令人擔憂的是,個別醫師之間的表現存在著極大差異,個人假陽性率波動在 1% 到 29% 之間,而個人敏感度甚至在 29% 到 97% 之間劇烈震盪。這也促使許多國家全面推行雙人閱片制度,甚至有研究表明將讀片人數增加到十位都能持續提升表現,凸顯了現行判讀流程仍有巨大的改善空間。

若深究傳統電腦輔助偵測 CAD(用來標示影像可疑區域的輔助軟體) 的發展軌跡,其臨床效益其實充滿矛盾。早在 2008 年,美國已有 74% 的聯邦醫療保險篩檢採用了這項技術,每年耗資超過四億美元。雖然早期有英國的大型臨床試驗認為單人閱片加上軟體輔助可以達到雙人閱片的水準,但過去十年間有越來越多研究表明,現有基於手動挑選特徵與傳統機器學習的輔助系統,根本無法在日常實務中實質提升放射科醫師的判讀表現。這些基於人類預先設計的幾何、邊緣特徵演算法,顯然已經碰觸到了效能天花板,亟需下一個世代的影像分析技術來突破僵局。

八萬筆挑戰賽資料與 Faster R-CNN 訓練架構

為了徹底改變這種現況,研究團隊放棄了傳統醫學影像常走的客製化特徵萃取老路,直接導入了在電腦視覺領域大放異彩的 Faster R-CNN 框架。這套模型原本是設計來在一般照片裡精準框出汽車或狗的位置,它奠基於深達十六層的 VGG16 網路結構,並採用了聯合最佳化 Joint optimization(讓定位框與分類結果同時更新權重的訓練方式) 的策略,同時訓練物件偵測與分類兩項任務。起初,這個模型是用高達一百二十萬張的一般生活照片進行預訓練,隨後才透過遷移學習的方式,將原本用來辨識日常物品的權重,微調成用來區分乳房影像中的良性與惡性病灶。

在訓練資料的準備上,團隊整合了兩大來源:首先是公開的 DDSM 數位化底片資料庫,裡面包含了 2620 份帶有像素級標註的篩檢影像;其次是匈牙利塞麥爾維斯大學放射部提供的 847 張高畫質數位影像。為了適應顯示卡的記憶體限制,同時保留 Hologic 設備原本的長寬比,這些原始影像被重新縮放,使得長邊不超過 2100 像素,短邊不超過 1700 像素。在影像前處理上,團隊除了將像素值映射為光學密度並標準化到 0 至 255 的範圍外,還運用了垂直與水平翻轉的技術來擴充訓練集,確保模型能學習到各種病灶的空間型態。

這套架構的硬體與軟體配置上,團隊使用了深度學習專用的 Caffe 框架,並在強大的 Nvidia GTX 1080Ti 顯示卡上進行了高達四萬次的隨機梯度下降疊代運算。為了統合不同層級的預測結果,研究團隊設計了一套簡單卻有效的計分機制:在一張影像中,如果標示了多個病灶,系統會取最高分數的那個惡性病灶作為該張影像的代表分數;若是針對同一側乳房的多張攝影角度,則將個別影像的分數取平均值。這種將影像切分成獨立判讀再彙總的做法,其靈感正是來自過去對於多位人類醫師獨立閱片行為的研究,被證明在兼具簡單與彈性的同時,能有效提升綜合判斷能力。

訓練與測試資料集分佈
資料集名稱用途影像類型樣本規模
DDSM模型訓練數位化底片2620 份檢查
Semmelweis 大學模型訓練數位乳房攝影 (FFDM)847 張影像 (174 位病患)
INbreast內部測試數位乳房攝影 (FFDM)115 份檢查 (剔除 8 份模糊案例)
DREAM 挑戰賽外部盲測驗證未公開86000 份檢查

結合公開與機構內部影像

Figure 2 展現的 0.95 絕佳 AUC 與測試集數據

把焦點轉向最終的分類表現,該演算法在競爭激烈的數位乳房攝影 DREAM 挑戰賽中證明了其強大的泛化能力。主辦單位要求參賽者必須將程式碼上傳至一個受到嚴格監控的安全雲端平台,在整個訓練與測試期間,參賽者絕對無法下載或肉眼檢視任何一張影像,也不能在程式執行中進行任何人為互動。在這種徹底隔絕盲測、且僅有二元預測標籤的環境下,團隊透過整合兩個以隨機打亂資料集訓練出來的模型,最終在 86000 筆資料的龐大驗證集上取得了 AUC 0.85 的優異成績,榮獲大賽亞軍。值得注意的是,在眾多頂尖參賽隊伍中,本研究是唯一一個堅持從「尋找局部惡性病灶」出發,進而推導出全圖癌症風險機率的團隊,多數對手僅停留在整圖分類的層次。

除了挑戰賽的優異表現,為了進一步驗證模型在單一數位乳房攝影上的分類能力,團隊特別選擇了獨立且具備完整標註的公開資料集 INbreast 進行詳細測試。考量到該資料庫的影像對比度較低,團隊額外進行了像素強度的截斷,剔除了極端值後進行視窗微調。根據 Figure 2 所繪製的接收者操作特徵曲線,這個完全自動化且不需任何人工介入的單一模型,在以個別乳房為單位的預測上達到了破紀錄的 AUC 0.95。透過一萬次拔靴取樣法所估計出的 95% 信賴區間落在 0.91 至 0.98 之間,這項數據也是目前針對 INbreast 資料庫採用單一深度學習模型自動分析所發表的最高分類水準。

Figure 3 繪製的 FROC 曲線與 IoU 閾值調整策略

至於放射科醫師最在意的「精準標記位置」與「不要亂跳警告」這兩大需求,則在 Figure 3 的自由反應接收者操作特徵曲線 FROC(橫軸為每張圖假陽性個數,縱軸為敏感度的評估圖表) 中得到了解答。只要預測框的中心點落在真實病理標註的範圍內,即視為成功偵測。結果顯示,模型能在每張影像僅產生 0.3 個假陽性標記的嚴格條件下,依然維持高達 0.90 的惡性病灶敏感度。相較之下,目前市面上常見的商業軟體,在類似的假陽性干擾(0.3 到 1.25 個)下,針對數位影像的敏感度僅約落在 0.85 左右,而針對數位化底片的表現更只有 0.75 到 0.77。

從演算法的參數微調過程中,我們可以看到醫療影像與一般照片的本質差異。研究團隊在訓練初期發現了一個嚴重的類別不平衡問題:由於乳房攝影裡的「物件」數量遠遠少於一般照片,導致模型在小批次訓練時極度缺乏正樣本。為了克服這點,團隊將區域提案網路的交併比 IoU(預測框與真實病灶的重疊比例) 門檻從常規的 0.7 大幅下調至 0.5。這項讓步不但沒有破壞效能,反而穩定了訓練過程,因為乳房病灶的邊界本來就比照片裡的車輛或動物模糊許多。

另一方面,團隊將最終的非極大值抑制 NMS(剔除重疊預測框的演算法) 的交併比閾值設得很低(僅有 0.1)。其背後的臨床理由非常直觀:乳房攝影是將三維立體空間重度壓迫而成的二維平面,相較於真實世界的景深,病灶在壓扁的組織中完全重疊出現的機率其實微乎其微。這個針對放射科解剖特性的細微調整,大幅減少了系統發出無效重複警告的頻率。

各世代電腦輔助系統之偵測效能比較

基於 INbreast 資料集實測與文獻回顧的敏感度比較

Figure 4 的假陽性分析與像素級標註資料受限

針對模型未能完美揪出的盲點,團隊深入分析了 Figure 4 中的錯誤案例。在 0.9 敏感度的嚴苛門檻下,雖然有 10% 的惡性病灶被歸類為漏診,但這並不代表神經網路完全沒有看到它們。只要將模型信心分數的門檻放寬,允許每張圖出現 3 個假陽性標記時,這些看似被忽略的惡性腫瘤就會全數浮現,達成 100% 的偵測率。這代表演算法已經具備了辨識所有特徵的潛力,未來的應用端完全可以根據臨床場景的防禦性需求,自由調節分數閾值。

檢視那些被模型誤認的假陽性標記,絕大多數都是良性的腫塊或良性鈣化點。根據 INbreast 資料集的病歷記載,這些假陽性中有部分病灶因為具有高度懷疑的形態特徵,在當時的實際臨床情境中甚至被安排了切片檢查。這說明了人工智慧的「錯誤」在臨床思維上是具備合理性的,它挑出的往往也是人類醫師會多看兩眼的困難案例。作者在討論中坦承了目前研究的最大限制,主要在於帶有高品質像素級別標註的公開資料集規模依然太小。雖然整體風險分類效能已經在龐大的篩檢資料庫中獲得驗證,但病灶定位能力的極限測試仍受限於 INbreast 這樣僅有一百多個案例的小型資料庫。

從臨床實務的角度來看,這項研究給出了一個極具啟發性的方向:直接針對「病灶定位」進行訓練的物件偵測框架,遠比單純輸出整圖分數的分類器更有價值。一個只能告訴你「這張圖有 80% 機率是癌症」的系統,在臨床上幾乎無用武之地,因為醫師依然需要精確找出病灶位置,才能安排後續的放大攝影、超音波對位或是切片檢查。這套奠基於物件偵測架構的工具,不僅證明了其作為放射科醫師「視覺增強器」的強大潛力,更宣告了未來只要有足夠的標註資料,深度學習完全有能力取代傳統效能停滯不前的輔助軟體。

遇到乳房攝影中邊界模糊的病灶時,記得放寬心中的交併比門檻,因為將 3D 立體組織壓扁後的重疊特徵,與尋找一般生活物件的邏輯截然不同。