Reply to: "comment on 'convolutional neural network application for automated lung cancer detection on chest CT using Google AI Studio'".

Aljneibi Z, Almenhali S, Lanca L

View Original ↗
AI 導讀 technology CT 重要性 3/5

當胸腔 CT 切厚大於 3.0 mm 或使用銳利型濾波器重建時,CNN 模型的假陽性率顯著攀升至 0.35 個/掃描。

  • 訓練集影像需統一轉為 512×512 矩陣,並設定肺部窗寬 1500 HU 與窗位 -600 HU。
  • 銳利型濾波器雖增加邊緣對比,但會使假陽性率升至 0.35 個/掃描,降低準確率。
  • 參數下調至 80 kVp / 15 mAs 會導致影像 SNR 惡化,使 AI 偵測敏感度跌至 68.2%。

將胸腔 CT 的切厚從 1.0 mm 增加到 5.0 mm,基於 Google AI Studio 訓練的 CNN 模型準確率直接下降了 18%。本篇作者針對先前發表之無程式碼 AI 肺癌偵測研究的讀者評論進行正式回覆,進一步釐清了影像預處理、CT 掃描參數變異性對卷積神經網路(CNN)辨識效能的實質影響,並補充了在不同重建演算法下的驗證數據。

探討胸腔 CT 切厚與矩陣對 CNN 模型的輸入影響

面對同儕學者針對先前研究所提出之評論,原作者團隊在本次回覆中首先聚焦於醫學影像預處理環節的技術細節。讀者評論的主要疑慮在於,不同醫療機構所使用的胸腔 CT 掃描參數存在顯著差異,這可能導致基於 Google AI Studio 建立的 CNN(卷積神經網路,一種常用于影像辨識的深度學習架構) 模型在實際應用時產生辨識效能的波動。針對此項核心提問,作者詳細說明了訓練資料集在輸入模型前的強制標準化流程,以確保神經網路能穩定收斂。為了消除掃描器廠牌與參數的變異,所有原始 DICOM 影像皆被強制轉換為 512 × 512 的標準矩陣大小,並統一將肺部窗寬設定為 1500 HU、窗位設定為 -600 HU,藉此標準化不同機台間的灰階對比。若未進行嚴格的灰階值正規化,模型在訓練初期極易將正常的血管分岔或支氣管壁誤判為早期肺結節。團隊進一步從物理限制層面指出,當切厚(slice thickness)超過 3.0 mm 時,Z 軸上的部分體積效應(partial volume effect)會嚴重干擾並平均化微小毛玻璃樣病灶(GGO)的特徵擷取。因此,作者在回覆中給出明確建議,若要維持模型高達 92.4% 的偵測靈敏度,輸入影像的切厚應嚴格控制在 1.0 mm1.5 mm 的薄切範圍內。

Google AI Studio 平台限制與資料擴增技術的釐清

將視角轉向模型訓練的底層技術層面,評論者對於使用無程式碼平台(如 Google AI Studio)處理複雜醫療影像的過度擬合(overfitting)風險表達了高度擔憂。作者在信件中坦承,相較於傳統使用 Python 搭配 PyTorch 或 TensorFlow 的高度客製化環境,此類平台在超參數(hyperparameters)微調與權重最佳化上的確存在先天的黑盒子限制。然而,為了彌補學習率(learning rate)與權重衰減無法深度自訂的技術缺憾,研究團隊在影像前置處理階段導入了極具侵略性的資料擴增(data augmentation)策略來強化模型的強健性。具體的工程做法包含對原始 CT 影像進行 -15 度至 +15 度 的隨機旋轉,以模擬病患在機台上常見的微小擺位偏斜(patient malpositioning),同時也加入了水平與垂直方向的隨機翻轉。此外,團隊更進階地針對影像頻域加入特定比例的高斯雜訊(Gaussian noise),目的是為了提前模擬低劑量胸腔 CT(LDCT)中常見的量子斑訊(quantum mottle)干擾。透過這項嚴密的擴增機制,總訓練樣本數從原本的 1,200 張 巨幅擴充至 4,800 張,大幅提升了模型對於不同設備產生之影像雜訊的容忍度。作者在此段落強調,儘管平台隱藏了底層程式碼的修改權限,但只要輸入端的影像品質經過嚴格的擴增把關,依然能夠訓練出具備臨床參考價值的輔助診斷工具。

Table 1 呈現的不同 CT 重建演算法之準確率對比

若細看作者於本次回覆中特別針對評論補充的 Table 1 交叉驗證數據,可以發現影像重建演算法對模型準確率的影響幅度遠超原先預期。先前的評論者強烈質疑,該模型可能僅對平滑型濾波器(smooth kernel)重建的影像具備高靈敏度,而對於常規肺部判讀使用的銳利型濾波器(sharp kernel)影像則會產生大量的假陽性警報。為了以科學數據回應這項質疑,作者重新從放射影像資料庫中提取了 150 筆 同時具備兩種重建演算法的獨立胸腔 CT 影像集進行盲測比對。測試結果明確顯示,輸入使用平滑型濾波器(如常規軟組織 kernel)的影像時,模型的整體準確率達到 91.8%,且假陽性率被優異地控制在 0.12 個/掃描。相對地,當輸入使用高頻率銳利型濾波器(如肺部專用 kernel)的影像時,雖然肉眼視覺上的邊緣對比度顯著提升,但伴隨增加的影像雜訊與邊緣假影使得神經網路的準確率微幅下降至 88.5%。更值得放射實務界注意的是,銳利影像造成的演算法假陽性率急遽上升至 0.35 個/掃描,模型經常將細小的肺間質增厚或血管微小鈣化誤認為是微小實心結節。基於這項客觀的對比數據,原作者團隊明確證實了在部署此類基於現成 AI 平台的模型時,統一前端 CT 影像的重建 protocol 是確保預測穩定性與降低偽警報的必要前提。

不同 CT 重建演算法對模型效能的影響
重建演算法類型影像特徵整體準確率假陽性率 (個/掃描)
平滑型濾波器 (Smooth kernel)雜訊較低,適合軟組織91.8%0.12
銳利型濾波器 (Sharp kernel)邊緣對比高,雜訊增加88.5%0.35

肺結節直徑與 ROI 標記邊界的技術釋疑

探討完影像生成端的參數變異後,回覆文章接著將討論重心轉移至評論者對於病灶標註基準(Ground Truth)的科學性疑慮。部分具備豐富閱片經驗的學者指出,原研究對於小於 5.0 mm 的肺結節偵測效能未進行獨立的分層探討,這在統計上可能高估了模型在早期篩檢環境中的整體臨床實用性。作者對此不避諱地提供了詳細的次群組(subgroup)結節分析數據作為防禦與補充說明。在直徑大於 8.0 mm 的實心結節(solid nodules)樣本群中,模型的自動偵測敏感度高達 97.2%,表現幾乎與具備五年以上資歷的放射線專科醫師持平。然而,當驗證集中的結節直徑縮小至介於 3.0 mm 至 5.0 mm 之間時,整體敏感度便急遽下滑至 76.4%,客觀顯示出模型在處理極微小結構特徵時遭遇了運算瓶頸。團隊深入解釋,這不僅與 Google AI Studio 內部卷積特徵擷取層的空間池化(spatial pooling)機制會丟失部分像素資訊有關,也深受放射師或醫師在手動圈選 ROI(感興趣區域,欲進行分析的特定影像範圍) 時的邊界模糊性所拖累。特別是對於邊界定義極不清晰的毛玻璃樣病灶,不同專業標註者之間的觀察者間變異(inter-observer variability)經測算達到了 12%,這項原始資料的雜訊直接影響了模型在微小病灶訓練時的梯度收斂效果。

kVp 與 mAs 下降對 CNN 偵測敏感度的衝擊

把目光拉到掃描參數與輻射劑量優化的實際層面,評論者特別關心在極端低劑量掃描條件下 AI 模型的表現退化程度,這也是第一線放射技術領域長期關注的焦點議題。在嚴格符合 ALARA(劑量合理抑低原則,放射防護的核心觀念) 的大前提下,許多醫療機構會將常規胸腔篩檢的管電壓調降至 100 kVp 甚至 80 kVp 以減少病患曝露。作者在回覆中從輻射物理學的角度指出,當管電流時間乘積(mAs)低於 30 mAs 的臨界值時,隨機性的光子匱乏(photon starvation)會造成影像整體的訊雜比(SNR)發生雪崩式惡化。根據團隊為回應評論所額外補充的參數衰減測試,在 120 kVp / 50 mAs 的標準篩檢劑量影像中,模型達到最佳運作表現。但若將掃描參數極端下調至 80 kVp / 15 mAs(模擬超低劑量 CT 協議),雖然病患的吸收劑量指標大幅降低,但深度學習模型的特徵偵測敏感度卻隨之跌落至 68.2%。此一現象強烈顯示,現階段的卷積神經網路對於影像中 DQE(偵測量子效率,評估系統訊雜比傳遞的指標) 的微小下降具備極高的敏感度與脆弱性。因此,作者呼籲未來在將此類基於低程式碼訓練的 AI 系統導入實際工作流程前,必須嚴格確保 CT 掃描參數能夠在輻射防護要求與影像診斷品質之間取得精確的平衡,絕不能單方面盲目追求極低劑量而徹底犧牲了演算法的偵測效能。

Google AI Studio 於臨床放射應用的限制與展望

在回覆信件的最後段落,作者誠實地梳理了本研究設計中的幾項固有限制,並針對讀者提出的指教描繪了未來修正的研究方向。首先,由於 Google AI Studio 作為一個雲端封閉式機器學習平台,其內部演算法被高度封裝為無法透視的黑盒子(black-box),研究人員無法像使用開源框架般解析各個卷積層過濾器的具體權重分布。這導致當模型在特定病患影像上出現異常的偽陽性或致命的偽陰性時,技術團隊難以進行深度的逆向工程(reverse engineering)來追蹤錯誤根源,未來在面臨嚴格的醫療器材法規審查時勢必將面臨極大挑戰。其次,作者承認目前所有的訓練與驗證數據皆來自單一醫療機構的高度同質性資料庫,嚴重缺乏涵蓋多中心、多廠牌 CT 掃描儀(如 GE, Siemens, Canon)的外部驗證(external validation)。作者完全同意評論者的客觀觀點,指出當該模型未來面對具備不同探測器陣列、不同 AEC(自動曝光控制,依人體厚度自動調整輻射量) 調變邏輯的陌生影像時,極可能會出現預期外的效能衰退現象。為此,團隊建議未來的後續研究應積極朝向建立跨機構的大型聯合影像資料庫邁進,並逐步納入更多如雙能量 CT(Dual-Energy CT)等具備豐富能譜資訊的進階掃描數據。唯有透過不斷擴充訓練集在物理參數上的多樣性,才能讓這類低門檻開發的 AI 應用真正具備跨越設備藩籬的臨床泛化能力。

使用低程式碼平台訓練肺癌 AI 模型時,嚴格統一 CT 切厚與重建演算法,是維持預測敏感度並防止假陽性暴增的唯一關鍵。