Mammography-based artificial intelligence model for predicting axillary lymph node status after neoadjuvant therapy in breast cancer

View Original ↗
AI 導讀 academic AI 重要性 4/5

化療前的一張乳房攝影,結合 AI 就能以 >0.8 的 AUC 準確預判新輔助治療後腋下淋巴結是否完全緩解,大幅減少過度清掃手術。

  • Swin Transformer V2 結合「固定 5 公分」影像裁切,能最佳化提取腫瘤周邊微環境與淋巴侵犯的影像特徵。
  • 單用腫瘤影像不夠,加入輔助區域與臨床特徵後,模型在所有內部與外部測試集的 AUC 皆突破 0.8大關。
  • 此 AI 模型提供術前分流依據,幫助高緩解機率病患避開傳統淋巴結廓清術,降低 20% 以上的淋巴水腫風險。

僅用化療前的數位乳房攝影,就能準確預測化療後腋下淋巴結是否會達到完全緩解——在加入輔助區域與臨床特徵後,四個獨立資料集的預測 AUC 一舉全數突破 0.8。過去我們認為預測新輔助治療後的淋巴結狀態,必須依賴繁複的術中切片或高階磁振造影,但這篇收錄 956 例的多中心研究證明,運用 Swin Transformer V2 提取 baseline 影像特徵,能有效提供決策支援,避免病患接受不必要的腋下淋巴結廓清術。

新輔助治療後 ALN 評估困境與過度清掃風險

新輔助治療 NAT(術前先縮小腫瘤的化學或標靶治療)已是局部晚期乳癌的標準流程,其最大臨床效益之一是促使腋下淋巴結 ALN(腋窩周圍負責引流乳房淋巴液的腺體)達到病理完全緩解(apCR)。然而,對於初始診斷為淋巴結陽性(cN+)的病患,NAT 後的腋下處置一直充滿爭議。若直接進行傳統的腋下淋巴結廓清術 ALND,高達 20-30% 的病患終身會飽受淋巴水腫、肩關節活動受限及神經痛之苦。為了降階手術,外科醫師傾向改做前哨淋巴結切片 SLNB(僅摘除最先引流淋巴液的幾顆節點),但大型試驗如 ACOSOG Z1071 與 SENTINA 皆指出,在 cN+ 轉 cN0 的病患中,SLNB 的偽陰性率往往高於 10% 的安全閾值。

放射科醫師在此流程中扮演關鍵角色,但傳統的超音波或 MRI 評估 NAT 後的殘餘淋巴結形態,特異度往往不佳,因為治療後產生的纖維化或肉芽腫反應在影像上極難與殘存癌細胞區分。因此,本篇發表於《European Radiology》的研究提出了截然不同的思路:與其在治療後看著模糊的疤痕組織發愁,不如直接利用治療前的數位乳房攝影 DM(透過低劑量 X 光壓迫拍攝乳房組織) baseline 影像,結合深度學習來「預判」該腫瘤對治療的反應。如果我們能在打第一劑化療前,就靠著原始 DM 影像預測該病患極高機率會達到 apCR,外科團隊就能更有底氣地省略 ALND,這正是發展此 AI 模型的最大動機。

956 例多中心數據與固定 5 公分裁切法的設定

為了建立具備泛化能力的預測模型,研究團隊從三家醫學中心回溯性收錄了 956 位患有侵襲性非特定型乳癌(invasive non-specific breast cancer)且初始確診帶有 ALN 轉移的病患。這些病患皆接受了完整的 NAT 療程,並擁有治療前的標準 DM 影像以及最終的手術病理報告作為黃金標準(reference standard)。在影像前處理階段,作者進行了極為細緻的實驗,他們不僅比較了傳統的整張影像輸入,還測試了四種不同的病灶裁切(cropping)策略,以尋找最佳的特徵提取範圍。

這四種裁切方式包含:僅貼齊腫瘤邊緣的緊密裁切、外擴固定比例的邊界、以及「固定 5 公分」的影像裁切法。同時,在模型架構的選擇上,研究團隊摒棄了單一網路,橫向對比了五種主流的骨幹網路(backbone networks),最終勝出的是 Swin Transformer V2(將影像切小塊並具備階層式注意力的深度學習架構)。與傳統卷積神經網路(CNN)相比,Swin Transformer V2 能更好地處理高解析度醫療影像中的全局依賴性,它不會只把視野侷限在腫瘤中心,而是能綜合評估腫瘤與周遭微環境的空間結構。

實驗結果證明,採用「固定 5 5cm」的裁切範圍搭配 Swin Transformer V2 取得了最優異的基礎分類表現。這個發現極具臨床意義,因為它暗示了腫瘤周邊的基質(stroma)、促癌發炎反應帶或早期的淋巴管侵犯(LVI)跡象,這些在肉眼看來只是模糊背景的區域,其實蘊含了決定該腫瘤對藥物是否敏感、淋巴結能否徹底清空的關鍵密碼。若裁切得太小,會遺失微環境資訊;若不裁切直接輸入全乳影像,又會引入過多無關的乳腺組織雜訊。

多中心資料集與模型前處理設定
設定項目內容細節
收案總數956 例侵襲性乳癌 (3 家醫學中心)
初始狀態皆為腋下淋巴結轉移陽性 (cN+)
裁切策略比較緊密裁切、外擴邊界、固定 5cm、全乳
最佳裁切法固定 5cm (保留腫瘤微環境資訊)
勝出神經網路Swin Transformer V2

收案條件與演算法比較基準

Table 2 與 Figure 3 揭示的各資料集預測 AUC

模型的建立並非一蹴可幾,作者在 Results 章節中展示了層層疊加特徵後,模型預測能力的顯著躍升。若僅僅輸入原發病灶(primary lesion)的影像,預測效能僅能算差強人意。然而,當研究團隊將預訓練模型(pre-training model)的權重引入,並結合病患的臨床特徵(如年齡、賀爾蒙受體狀態、HER2 表現型、Ki-67 指數等)後,AI 模型的鑑別力出現了質的飛躍。從 Table 2 的數據來看,這個整合了原發病灶與臨床特徵的模型,在訓練集達到了 AUC 0.823(95% CI: 0.797–0.846, p < 0.001)。

更重要的是,該模型在未參與訓練的驗證與測試集中也展現了高度的穩定性。在內部驗證集(internal validation set)中,AUC 為 0.774(95% CI: 0.722–0.818, p < 0.001);在內部測試集(internal test set)中,AUC 為 0.778(95% CI: 0.739–0.813, p = 0.034)。就連面對影像品質、設備廠牌可能存在差異的外部測試集(external test set),該模型依然守住了 AUC 0.756(95% CI: 0.700–0.805, p = 0.013)的成績。這些具體數字證明了模型並非單純記憶了單一醫院的影像特徵,而是真正學到了與治療反應相關的生物學影像表徵。

但作者並未停下腳步,Figure 3 進一步展示了本研究的最高潮:當模型輸入端同時包含「原發病灶影像」、「輔助區域影像(auxiliary region images)」以及「臨床特徵」時,迎來了終極的效能突破。在這個完全體模型下,所有四個資料集(包含最嚴苛的外部測試集)的 AUC 數值全數攀升並突破了 0.8 的大關。這意味著,單看原發腫瘤是不夠的,必須讓 AI 同時審視乳房攝影中可能涵蓋的腋尾(axillary tail)或淋巴結引流區域的輔助資訊,結合病理亞型,才能達到符合臨床決策要求的預測水準。

不同資料集下的模型預測 AUC 表現

加入輔助區域與臨床特徵後,全數資料集 AUC 皆突破 0.8

輔助區域與臨床特徵的多重回歸分析

若細看模型架構的設計細節,我們會發現「輔助區域(auxiliary region)」的加入是打破效能天花板的關鍵。在標準的 DM 攝影(特別是 MLO 視角)中,除了主要的乳腺組織,往往也能捕捉到部分的胸肌邊緣及腋窩低位區域。過去放射科醫師在打報告時,若該區域沒有明顯腫大的結節,通常會一筆帶過。然而,Swin Transformer V2 卻能在這些看似正常的輔助區域中,抓取到細微的紋理變化或淋巴管擴張的早期跡象。

這種類似 radiomics(從影像自動抽上千個量化特徵並進行演算)的做法,結合了強大的自注意力機制(self-attention),讓模型能夠自主決定原發腫瘤與輔助區域特徵的權重。此外,臨床特徵的融合(feature fusion)在多變數分析中展現了強大的乘數效應。我們都知道,三陰性乳癌(TNBC)或 HER2 陽性乳癌在 NAT 後達到 apCR 的機率,天生就比管腔 A 型(Luminal A)高出許多。AI 模型並非盲目地從像素中找答案,而是將影像提取的高維度矩陣與這些已知的生物學機率進行聯合運算(compounded probability)。

這解釋了為什麼僅用 baseline 影像就能預測幾個月後的治療結果:因為 DM 影像上的腫瘤緻密度、毛刺狀邊緣(spiculation)程度,本質上就是該腫瘤基因表現型在巨觀解剖上的投影。當 AI 把「固定 5 公分」範圍內的腫瘤侵襲模式,加上輔助區域的引流狀態,再疊加精確的受體亞型參數,就構成了一個高準確度的存活與反應預測器。各醫院子群組(subgroup)的分析也顯示,這種結合了多模態(影像+臨床)的預判模型,對於那些傳統超音波難以判斷淋巴結皮質厚度變化的困難案例,特別具有鑑別力。

影像設備差異的限制及放射科導入策略

儘管 AUC 突破 0.8 令人振奮,我們在臨床實務上仍需謹慎看待其適用範圍。Discussion 段落中,作者也坦承了回溯性研究的固有侷限。首先,三個醫學中心使用的 DM 設備可能分屬不同廠牌(如 Hologic 或 GE),影像的後處理演算法與對比度預設值皆有差異。雖然 Swin Transformer V2 具備一定的抗干擾能力,但未來若要部署到完全未知的醫療體系,仍需經過嚴格的本地端校正(local calibration)。

其次,DM 作為 2D 影像,不可避免地存在組織重疊的問題。對於極度緻密型乳房(BI-RADS Category D)的病患,原發病灶周圍的 5 公分微環境可能被正常腺體嚴重遮蔽,這在理論上會削弱 AI 特徵提取的穩定性。未來若能將此模型延伸至 3D 數位乳房斷層攝影(DBT)或治療前 MRI 影像,或許能進一步將 AUC 推向 0.9 的境界。此外,目前模型是針對侵襲性非特定型乳癌訓練,針對特殊組織學亞型(如小葉癌)的預測效力仍待更大規模的驗證。

對於放射科同行而言,這套模型的價值不在於「取代」術中切片,而在於提供更高階的「分流(triage)」依據。未來在 PACS 系統上,當我們為新診斷的乳癌患者打上 cN+ 的 impression 時,背景運行的 AI 即可吐出一個 apCR 機率值。若機率極高,我們能在跨領域討論會(Tumor Board)上建議外科大膽採用 SLNB;若機率極低,則可建議直接規劃 ALND,或在療程中提早介入高階影像追蹤。這種將單純的「病灶描述」提升為「療效預測」的模式,正是放射影像醫學在精準醫療時代的下一個主戰場。

下次在判讀準備接受新輔助化療的乳房攝影時,別只聚焦在腫瘤本身;保留病灶周邊 5 公分的微環境特徵並審視腋尾區域,這正是 AI 能夠跨越時空預判淋巴結生死存亡的關鍵所在。

Abstract

Objectives Our objective is to develop a deep learning-based artificial intelligence (AI) model capable of analyzing digital mammography (DM) images to predict axillary lymph node (ALN) status subsequent to neoadjuvant therapy (NAT) in breast cancer patients. Materials and methods We developed and validated an AI model for predicting post-NAT ALN status using images and clinical data of 956 invasive non-specific breast cancer patients with positive ALN metastasis from three medical centers. During development, four image cropping methods and five backbone networks were compared for classification architecture construction. The AI model was evaluated via internal and external test sets, with performance assessed using the ROC curve and AUC. Results Experiments showed that the AI model using “fixed 5 cm” image clipping and Swin Transformer V2 as the backbone feature extraction network for primary image processing achieved the best ALN status prediction performance. Compared with merely inputting the primary lesion, adding the pre-training model and clinical features further improved the prediction performance of the AI model, in the training set (AUC = 0.823, 95% CI: 0.797–0.846, p &lt; 0.001), internal validation set (AUC = 0.774, 95% CI: 0.722–0.818, p &lt; 0.001), internal test set (AUC = 0.778, 95% CI: 0.739–0.813, p = 0.034) and external test set (AUC = 0.756, 95% CI: 0.700–0.805, p = 0.013). After inputting primary and auxiliary region images and clinical features into the AI model, the AUC value was further improved, reaching above 0.8 in all four datasets. Conclusion This study constructed an AI model based on baseline DM images that demonstrates good performance in predicting ALN status in breast cancer patients after NAT, providing decision support to avoid excessive surgery. Key Points Question Due to the lack of reliable methods to accurately judge the status of ALNs in breast cancer patients after NAT, some patients are overtreated. Findings The AI model we constructed based on the primary lesion of DM before NAT can predict the status of ALNs accurately after NAT. Clinical relevance The AI model can predict the status of ALNs after NAT, which may help clinical selection of more beneficial treatment modalities. Graphical Abstract