Automatic Delineation of Tumor Spheroids in Microscopic Images Using Deep-Learning.

Maus Jens, Nitschke Janina, Nikulin Pavel, Hofheinz Frank, Barth Mareike, et al.

View Original ↗
AI 導讀 technology AI 重要性 3/5

透過 nnU-Net v2 訓練的深度學習模型,能將分析 38,090 張腫瘤細胞影像的工時從 10 小時縮減至 2 小時。

  • 神經網路成功克服抗腫瘤治療產生的細胞碎片干擾,獨立測試集 Dice 相似係數高達 0.974。
  • 半最大控制劑量(SCD50)的指標評估中,AI 模型直接輸出的結果與純人工標註數值幾乎一致。
  • 專屬開源圖形介面 pyMarAI 支援 GPU 加速與自動彙整,大幅降低生醫研究人員的技術門檻。

處理腫瘤細胞實驗數萬張影像,傳統手動校正極度耗時。近期團隊利用 nnU-Net v2 框架,從 38,090 張圖片訓練出深度學習模型,將標註工時從 10 小時壓縮至 2 小時,藥效控制數據更與手動標註高度吻合。

38090張影像與 nnU-Net v2 克服細胞碎片干擾

腫瘤球體生長實驗(Tumor spheroid growth assays)是癌症研究中評估新療法的關鍵體外測試。這類實驗通常會產生龐大的顯微鏡影像序列,傳統上依賴基於閾值(threshold-based)的方法來測量細胞球體大小。然而當細胞受到抗腫瘤藥物或放射線破壞時,培養皿中會累積大量細胞碎片,導致傳統視覺辨識方法完全失效。

面臨高對比度的細胞殘骸干擾,研究人員往往需要逐一進行極度耗時的手動修正。為了解決這個運算瓶頸,團隊導入了 nnU-Net v2(自配置深層學習影像分割框架)進行自動化標註。這個模型針對從小鼠嗜鉻細胞瘤(MPC)培育出的腫瘤球體,進行了長達 35 天的放射性配體治療追蹤與影像擷取。

在建構這套包含 38,090 張可用影像的巨大資料庫前,團隊也建立了嚴謹的排除機制。部分影像因為藥物作用過強僅剩碎片、邊界過於模糊導致無法確認地面真實數據(Ground Truth),或者因為球體生長過大超出顯微鏡視野,都會被直接從訓練集中剔除,以確保神經網路學到最純粹的型態特徵。

深層 U-Net 結構讓獨立測試集 DSC 達 0.974

資料集在訓練前被嚴格切分為兩部分,確保評估的客觀性。主要資料集包含 21,567 張影像,採用 5 折交叉驗證(5-fold cross-validation)進行訓練與內部驗證;另一組 16,523 張影像則保留作為獨立測試之用。模型訓練基於配備四張 NVIDIA Tesla V100S 顯示卡的系統運行,推論單張圖片僅需約 1 秒。

深入檢視網路架構,該模型採用具備六個解析度階段的深層 U-Net 結構。編碼器(Encoder)階段從 256×192 矩陣與 32 個特徵圖起步,每次向下採樣時特徵圖數量翻倍,最高達到 512 個。主要架構結合了 3×3 卷積、實例正規化(Instance Normalization)以及 leaky ReLU 激活層,並透過跳躍連接精準還原空間特徵。

成效驗證採用 Dice 相似係數(DSC,評估空間標註重疊度的指標)來量化空間一致性。數據顯示,主要訓練集與獨立測試集的 DSC 中位數分別高達 0.9790.974,顯示模型在未見過的資料上依然保持極高的穩定度。拆解表現落差的案例,主要資料集中僅有 7%、測試集中僅有 8% 的影像 DSC 低於 0.9。

SCD50 關鍵指標:AI 與手動標註誤差極小

為了確認自動標註工具是否會影響最終的生物學結論,研究團隊進一步比對了半最大腫瘤球體控制劑量(SCD50)。這項核心指標代表抑制一半腫瘤球體生長的初始濃度,是評估放射線療法療效的關鍵數據,即使是微小的標註偏差都可能影響藥物評價。

對比單一實驗中的結果,手動與 AI 標註產出的 SCD50 數值呈現高度重合。在實驗中期的第 13 天,手動標註估算出的數值為 0.086 ± 0.001 MBq/mL,而深度學習模型的結果則是 0.083 ± 0.002 MBq/mL,兩者僅有微小差距。

將時間線拉長至實驗後期的第 35 天,兩者的表現依然緊密咬合。手動標註測得 0.150 ± 0.001 MBq/mL,模型預測值則是 0.149 ± 0.007 MBq/mL。這意味著即便在未經任何人工後續修正的純 AI 標註狀態下,實驗的藥效結論也不會產生實質偏差。

跨顯微鏡與 HepG2 細胞的 7103 張泛化測試

驗證一個深度學習模型是否真正具備實用價值,必須考驗其在全新硬體與樣本下的泛化能力。團隊額外挑選了 7,103 張來自其他獨立實驗的影像,這些影像不僅使用了完全不同的顯微設備(AxioCam 350),還包含了不同的培育環境與全新的細胞株。

這批測試資料中,包含 4,800 張經過 X 射線預處理的抗輻射 MPC 細胞(MPC-RR)影像,以及 2,303 張在脂肪細胞條件培養基中生長的人類肝癌細胞(HepG2)影像。由於細胞型態、碎片分佈與生長速度皆與訓練集有顯著差異,這是對神經網路的嚴格壓力測試。

儘管面對全新變數,模型產出的相對球體面積平均值為 1.032,僅有 12% 的 DSC 低於 0.9。在實際工作流程中,這 7,103 張影像僅有 22% 需要研究員介入進行手動微調。測試也發現模型對不同細胞有微小偏好,例如傾向低估 HepG2 的面積,同時略微高估 MPC-RR 的邊界。

pyMarAI 將標註工時從 10 小時降至 2 小時

這套自動化流程並非僅停留在理論層面,研究團隊將整個神經網路包裝成名為 pyMarAI(基於 PyQt5 的圖形使用者介面)的系統。該軟體支援自動影像格式轉換與 GPU 加速,讓不具備程式開發背景的研究人員也能輕鬆批量處理數以千計的顯微影像。

導入軟體後,原本處理一組實驗所需的時間發生了質變。過去依賴傳統標註法加上人工修正,處理相同數量的影像通常需要橫跨數天、總計約 10 小時的操作時間;如今配合 AI 模型推論,加上後續人工抽檢與少部分修正,總處理時間被大幅壓縮至約 2 小時

自近期起,pyMarAI 已經成為該研究機構處理腫瘤球體實驗的常規工具,並且採用開源授權釋出。其內建的標籤系統還能將人類修正後的標註結果重新收集,做為未來持續訓練並提升模型精準度的資料庫。

結合開源圖形介面與自適應深度學習架構,高通量細胞影像分析正從耗時的純手工藝,進化為標準化且具備自我修正能力的自動化流程。

Abstract

Tumor spheroid growth assays are used to evaluate the potential of cancer therapies in vitro. During such experiments, extensive microscopic image series are generated, which are commonly analyzed using threshold-based delineations. However, due to treatment-induced morphological changes of the spheroids, very time-consuming manual corrections are often required. The goal of our work was the development of an AI-based method for accurate and automated delineation of spheroid growth assays, ultimately reducing the reliance on manual delineation and corrections. Spheroids were grown from mouse pheochromocytoma (MPC) cells and subjected to irradiation with particle-emitting radioligands. Spheroid growth was monitored over 35 days. N = 38090 images, acquired within seven experiments and two studies, were included. Spheroids were delineated with a threshold-based method followed by manual corrections and the resulting delineations served as ground truth for network training and testing. The data were divided into two independent data sets: one for training and internal validation using a 5-fold cross-validation (N = 21567; main data set) and another for final independent testing (N = 16523). The network was developed using the nnU-Net v2 deep-learning (DL) framework. DL-based and manual delineations were compared using the