Long-term prognostic implications of AI-detected versus AI-undetected breast cancers on mammography: a propensity score-matched analysis
AI 成功抓到的乳癌未校正死亡率高達 7 倍,配對校正後才發現 AI 只是偏好抓出具備高侵襲性特徵的壞分子。
- 未校正前,AI 偵測到的乳癌復發率(11% vs 5%)與死亡率(7% vs 1%)顯著高於未偵測組。
- 經 29 項臨床病理共變數配對後,兩組的無復發存活期(p=0.20)與整體存活期(p=0.21)差異徹底消失。
- AI 高分標記的腫瘤往往帶有高 Ki-67 或微鈣化等惡性特徵,後續檢查排程應更為積極。
AI 抓出來的乳癌,未校正前的死亡率竟然高達未偵測組的 7 倍(7% vs 1%)。看到這個懸殊的對比,你可能會懷疑 AI 是否專挑惡性度極高的腫瘤來亮紅燈。這篇發表於 2026 年《European Radiology》的長效追蹤研究,利用 29 項臨床與病理共變數將 879 位病患攤在陽光下檢視,證實 AI 的高敏感度並非直接決定生死,而是反映了腫瘤特定的生物學特徵。
AI 偵測率與 879 位侵襲性乳癌的十年存活對決
從每天海量的乳房攝影篩檢片中找出潛在惡性病灶,已經是當前放射科不可或缺的日常。各大醫學中心紛紛導入獲得 FDA 核准的 Lunit INSIGHT MMG 等商用輔助軟體,但我們很少去探究一個根本問題:被 AI 成功抓到的乳癌,和那些 AI 看走眼、最終卻被人類醫師或其他模態找出來的乳癌,在長期的預後上究竟有何差異?為了解答這個疑惑,研究團隊將時間線拉回 2013 年,藉由長達十多年的追蹤期來評估無復發存活期(RFS)與整體存活期(OS)。
攤開這 879 位平均年齡 50.3 ± 10.2 歲的侵襲性乳癌(invasive breast cancer)女性受試者名單,這是一個極具代表性的術前乳房攝影世代。團隊使用 Lunit INSIGHT MMG v1.1.8.2(獲 FDA 核准的商用乳房攝影 AI)對這批十年前的影像進行回溯性判讀。結果顯示,AI 的表現依然亮眼,成功且正確定位了 83% 的侵襲性乳癌。那些被 AI 遺漏或定位錯誤的 17% 案件,則被歸類為 AI 未偵測組(AI-undetected)。
然而,粗略的存活率分析卻引發了不小的震撼。在沒有進行任何變數調整前,AI 成功偵測到的腫瘤,其復發率高達 11%,顯著高於未偵測組的 5%(p = 0.02);在死亡率方面,AI 偵測組為 7%,同樣遠超未偵測組的 1%(p = 0.003)。甚至在遠端轉移(distant recurrence)的比例上,AI 偵測組也佔據了顯著的多數(p = 0.04)。這些未經修飾的原始數據,初步勾勒出一個現象:AI 似乎特別容易抓到那些會致命、會轉移的「壞分子」。
為了釐清這究竟是因果關係還是單純的相關性,研究必須導入更複雜的統計模型。單純看表面的存活率差異,容易忽略掉兩組病患在先天腫瘤分級、荷爾蒙接受體狀態、或是淋巴結轉移情況上的巨大不對等。因此,釐清這些干擾因子,成為整篇論文能否站得住腳的關鍵基石。
Propensity score matching 弭平 29 項臨床病理共變數
若細看病患背景資料,AI 能抓到的腫瘤與抓不到的腫瘤,在體質上本來就不在同一個起跑點。為了消弭這種選擇性偏差,團隊採用了 Propensity score matching(利用統計權重讓兩組病患的背景條件趨於一致,簡稱 PSM)來進行嚴格的校正。這個統計手法就像是幫兩組病患進行了一場基因與病理條件的「門當戶對」相親,確保後續比對的存活率不會受到其他已知風險因子的干擾。
Figure 1 的流程圖詳細記錄了這場複雜的配對工程。研究團隊總共納入了高達 29 項共變數,這幾乎涵蓋了乳癌預後評估的所有面向。臨床方面包含病患年齡、BMI、是否接受前導性化療(NAC)、手術切除邊緣狀態;病理方面則納入了腫瘤大小、淋巴結狀態、組織學分級、Ki-67 增殖指數、淋巴血管侵犯(LVSI)以及分子亞型(如 ER/PR/HER2 狀態)。
透過如此細緻的配對,原本兩組之間懸殊的基線差異被強制抹平。配對後的世代,無論是 AI 偵測組還是未偵測組,他們在上述 29 個變數的分佈上達到了高度的統計均衡。這意味著,如果在配對後兩組的存活率仍然存在差異,我們才能大膽推論「AI 的偵測與否」本身具有獨立的預後預測價值。
將視角轉向這套嚴格標準下的樣本流失,雖然 PSM 能夠大幅降低共變數帶來的雜訊,但代價是必須捨棄那些無法找到配對對象的極端案例。儘管如此,留下來的配對組別提供了極高純度的對比空間。這使得後續的 Kaplan–Meier 存活曲線與 Cox 比例風險模型,能夠真正反映出影像特徵與生物學行為之間的純粹關聯。
未校正前死亡率 7% 與 Table 2 的存活率大逆轉
把焦點拉到 Results 中最引人注目的 Table 2,經過 PSM 嚴格洗禮後,原本看似一面倒的存活數據發生了戲劇性的翻轉。在無復發存活期(RFS)的分析上,AI 偵測組與未偵測組的差異徹底消失,危險比(Hazard ratio, HR)來到 1.7 [95% CI: 0.8, 3.9],統計學上不具顯著意義(p = 0.20)。
整體存活期(OS)的表現也如出一轍。配對後的死亡率差異被抹平,OS 的 HR 為 4.1,且 95% 信賴區間極度寬廣 [95% CI: 0.5, 38.1],p 值為 0.21。為了雙重驗證這個結果,團隊另外執行了多變數回歸分析(multivariable analysis),結果依然呼應了配對分析的結論:AI 的偵測能力並非 RFS 的獨立預測因子(HR, 1.9 [95% CI: 0.9, 3.8]; p = 0.07),也無法獨立預測 OS(HR, 5.5 [95% CI: 0.8, 40.7]; p = 0.09)。
這些具體的 p 值與 HR 數字強烈暗示了一個結論:AI 並沒有被施予某種預測未來生死的魔法。未校正前看到的高死亡率與高復發率,完全是因為 AI 偏好捕捉的那些腫瘤,剛好都帶有較差的病理特徵(例如較大的腫瘤體積、較高的 Ki-67 指數或較活躍的血管侵犯)。一旦把這些「惡性共變數」固定下來,AI 是否能在猛瑪象(mammography)上畫出正確的 bounding box,與病患能活多久毫無關聯。
我們必須特別注意 OS 的 95% 信賴區間上限高達 38.1。這個極端寬廣的區間,很大程度上歸因於乳癌本身的長期存活率極高,尤其是在 AI 未偵測組中,未經校正的死亡率僅有 1%。當事件發生數(死亡數)極低時,統計模型在計算 Hazard ratio 時就容易產生巨大的波動。儘管如此,整體趨勢依然穩固地指向「無顯著差異」的軸心。
| 存活指標 | 分析階段 | AI 偵測組 | AI 未偵測組 | p 值 / HR |
|---|---|---|---|---|
| 復發率 | 未校正前 | 11% | 5% | p = 0.02 |
| 死亡率 | 未校正前 | 7% | 1% | p = 0.003 |
| RFS | PSM 配對後 | - | - | HR 1.7 (p = 0.20) |
| OS | PSM 配對後 | - | - | HR 4.1 (p = 0.21) |
經 PSM 配對後,存活期差異的統計顯著性完全消失。
腫瘤生物學特徵與 AI 演算法偏好的深度解構
為什麼 Lunit 等 AI 模型會「偏好」抓出那些帶有侵略性特質的腫瘤?從放射影像學的底層邏輯來看,這其實非常合理。具備高侵襲性的乳癌細胞,往往伴隨快速的血管新生、周邊組織的促纖維增生反應(desmoplastic reaction)以及明顯的微鈣化(microcalcifications)。這些變化在 2D 乳房攝影上,會轉化為高對比的腫塊邊緣、明顯的結構扭曲或群聚的亮點,正是卷積神經網路最擅長捕捉的特徵。
相對而言,那些 AI 沒看到的 17% 腫瘤,多半具有另一種截然不同的生物學樣貌。它們可能是低度分化(low-grade)、生長緩慢的管狀或黏液性乳癌;或者它們隱藏在極度緻密的乳腺組織中,呈現與周邊腺體等密度的不對稱(asymmetry)。這類腫瘤通常 Ki-67 較低,預後極佳,但在缺乏 3D 結構資訊的單純 mammography 上,即便交給資深放射科醫師也很容易被當成正常的重疊組織。
這個次群組現象給了我們一個重要的臨床提示:AI 的敏感度分佈是不均勻的。它對於「長得凶神惡煞」的病灶有著極高的敏銳度,但也容易放過那些「隨遇而安」的惰性腫瘤。雖然這些被漏掉的腫瘤本身致死率較低(未校正死亡率僅 1%),但這並不代表我們可以對 AI 的陰性報告掉以輕心。特別是在具有極高乳腺密度(Breast Imaging Reporting and Data System, BI-RADS Type C 或 D)的年輕女性中,這類偽陰性的潛在風險依然存在。
此外,雖然本篇著重於探討存活率,但這種由影像特徵回推生物學行為的現象,正是近年 radiomics(從影像自動抽上千個量化特徵,結合機器學習預測病理)積極探討的方向。AI 軟體目前只是給出一個異常分數與定位,但在未來,這套底層特徵擷取邏輯,很有潛力進一步轉化為非侵入性的腫瘤微環境評估工具。
無論是 PSM 或多變數分析,AI 偵測與否皆非獨立預後因子 (95% CI 皆跨越 1)。
Lunit INSIGHT MMG 在常規閱片流程的邊界與盲區
回歸日常的閱片台,這份長達十年的追蹤數據對我們有什麼實質的改變?首先,我們必須認知到這項研究的先天限制。作為一項單一醫學中心的回溯性研究,團隊使用的是 2013 年的影像庫,卻以 2026 年版本的演算法進行判讀。雖然這種設計確保了充足的存活期追蹤時間,但也可能無法完全反映當下最先進 AI 在處理早期微小鈣化時的真實臨床表現。
另一個需要謹慎解讀的點在於,那些「AI 看不到但後來確診」的乳癌,可能是在後續的超音波、MRI 或次年追蹤時才被發現。由於這 879 例都是最終確診侵襲性乳癌的病患,這意味著人類的綜合診斷流程(包含觸診、病史詢問與多模態影像)補足了 AI 在單一 mammography 上的盲點。這再次證明了 AI 的定位是「輔助」而非「取代」。
在實際應用場景中,當你在打報告時看到 Lunit 給出極高的異常分數並精準框列出病灶,請務必提高警覺。這不僅僅代表它很可能是一顆惡性腫瘤,根據本篇的未校正數據推演,這顆腫瘤有較高機率伴隨不良的病理特徵(如高分級或淋巴侵犯)。這提示我們在安排後續的切片確診與分期檢查(如腋下超音波或乳房 MRI)時,應該採取更積極、快速的排程。
反之,當病患有明確的局部疼痛或摸到硬塊,而 AI 卻毫無反應時,請堅定相信你的臨床直覺與超音波探頭。這篇研究告訴我們,AI 確實會漏看那群生物學行為相對溫和、隱蔽性高的腫瘤。放射科醫師的價值,正是建立在能夠整合這些演算法無法感知的臨床維度,為病患守住診斷的防線。
看到 AI 框出明顯病灶,請直接在心裡把這顆腫瘤的侵襲性預期調高一級;但遇到緻密乳房合併臨床硬塊時,別管 AI 的零分綠燈,請立刻切換到超音波找答案。