Negligible impact of perifissural nodules in an AI-first reader workflow from UK lung screening trial

View Original ↗
AI 導讀 academic AI 重要性 4/5

破除 AI 篩檢工作量迷思:良性肺裂結節造成的無效複閱率僅有 1.9%,體積閾值仍是最佳過濾器。

  • AI 採用純體積標準 (≥100 mm³) 時,僅 1.9% 病患因單純良性典型 PFN 觸發額外閱片。
  • 被專家判定為典型 PFN 的 57 顆超過閾值病灶,經追蹤證實惡性率為完美的 0%。
  • 結節共存效應大幅稀釋了 AI 的型態盲區,放射科無需強求演算法內建複雜的型態過濾機制。

在全面交由 AI 進行第一線肺癌篩檢判讀的流程中,因 AI 無法辨識良性肺裂旁結節而額外增加的放射科醫師工作量,出乎意料地僅有微乎其微的 1.9%。許多醫師擔憂 AI 僅具備體積測量能力而缺乏形態學判斷,會將大量無害的典型結節標記為異常,進而引發海量的無效人工複閱。這份來自歐洲放射學會的最新分析,透過詳實的病患層級追蹤數據,直接打破了這項長久以來的理論疑慮。

AI 第一線判讀與 100 mm³ 的形態學侷限

從臨床實際操作面的挑戰切入,目前全球多個大型肺癌篩檢計畫正逐步邁向 AI-first reader(讓人工智慧優先排除陰性影像) 的全新作業紀元。這種模式仰賴高敏感度的演算法先過濾掉高達六至七成完全正常的低劑量電腦斷層掃描,讓放射科醫師集中精力對付確實具備潛在惡性風險的案例。然而,現行 EUPS(歐洲肺癌篩檢立場聲明) 與 NELSON 2.0 指引皆強烈建議,必須以 100 mm³ 作為實心結節是否需要進一步處置或短期追蹤的絕對體積閾值。這項指引在與純粹的影像分割演算法結合時,產生了一個備受爭議的操作阻礙。

這項阻礙主要根源於現有深度學習架構的技術特性,雖然當前的 AI 模型能夠極度精準地在 3D 空間中切割病灶並計算精確體積,但對於特定組織形態的綜合辨識能力依然有待商榷。特別是 PFN(附著於肺裂的良性淋巴結),這類結節在解剖學上通常呈現明顯的三角形或透鏡狀,且具有連接周圍肺裂的細小間隔特徵,在受過訓練的人類胸腔影像專家眼中,只需一眼便能判定為無害的良性表現。但多數體積演算法往往無視這些特徵,一旦這些典型的 PFN 體積超過 100 mm³,系統便會毫不猶豫地將其標示為陽性病灶,強制啟動人工介入。學界與產業界曾悲觀預期,這種缺乏形態學除外機制的 AI,會因為頻繁通報肺部常見的良性淋巴結而嚴重癱瘓篩檢門診的閱片產能,這也是本篇論文亟欲用數據釐清的癥結點。

UKLS 試驗 1252 例影像的多專家仲裁設計

把焦點拉到研究的受試對象與方法設計,研究團隊直接調用了指標性的 UKLS(英國低劑量肺癌篩檢試驗) 影像庫,以確保結果具備足夠的真實世界代表性。這批涵蓋 1252 位參與者的高品質基線低劑量電腦斷層掃描,受試者平均年齡落在 68.5 ± 4.0 歲的區間,且其中高達 928 位為男性(佔整體比例高達 74%)。這種高齡且男性居多的分布,與臨床上長期抽菸、具有慢性肺部發炎史的重度肺癌高風險族群樣貌高度吻合,這也意味著他們肺部本就更容易出現因過往感染而遺留的良性淋巴結。在軟體方面,作者選用了一款已在市場上廣泛商用的 Coreline AVIEW LCS AI 軟體進行自動化讀片,模型嚴格遵循 EUPS 準則,無差別地圈選出所有實心成分體積 ≥ 100 mm³ 的肺部結節。

進入最核心的人工分類與驗證階段,設計團隊採取了極為嚴苛且耗時的 3+1 專家獨立判讀機制。首先由三位具備不同資歷的閱片人員,背對背地針對系統抓出的每一個結節進行形態學分類。當三人意見出現分歧時,便全數交由一位具備超過 20 年胸腔影像專科經驗的資深放射科醫師進行最終的 Arbitration read(定案仲裁判讀)。這套參考標準將所有附著或鄰近肺裂的病灶嚴格劃分為典型 PFN、非典型 PFN 或是非 PFN 病灶。整個流程極為精準地定義了所謂的「額外人工工作負擔」:只有當一位受試者身上「唯一」一顆超過 100 mm³ 閾值的結節,被專家判定為典型 PFN 時,這份本可被 AI 直接歸類為安全陰性的影像,才算是真正浪費了後端放射科醫師的時間。

UKLS 試驗 1252 例受試者篩選與結果流向
階段與檢驗項目數量與佔比
總分析受試者1252 位 (平均年齡 68.5 歲)
AI 偵測 ≥100mm³ 結節總數838 顆 (分布於 431 位病患)
AI 標示陽性病患比例34.4% (431/1252)
專家仲裁確認為典型 PFN57 顆 (分布於 49 位病患)

基線低劑量電腦斷層掃描的 AI 與專家仲裁分流

Figure 1 統計的 1.9% 淨負擔與零惡性率

若檢視 Figure 1 的整體案件分流數字與結果,AI 模型確實在這 1252 位受試者中,展現了極高的偵測敏感度,毫不留情地找出了高達 838 顆體積達標(≥ 100 mm³)的實心結節。從病患維度來看,這 838 顆大體積結節分布在 431 位參與者身上,這代表在完全不考慮結節外部形態的純體積篩選機制下,有 34.4% 的病患會被系統判定為潛在陽性並觸發警示。然而,經過資深專家的嚴謹仲裁後,這 838 顆結節中其實僅有 57 顆符合典型 PFN 的嚴格形態學定義。換算至受試者人數,這 57 顆良性病灶則僅散落在 49 位(佔總人數微乎其微的 3.9%)受試者的肺臟中。

最具說服力且足以顛覆臨床認知的關鍵數據,出現在最終的病患層級工作量盤點。在這 49 位擁有超標典型 PFN 的病患中,超過一半的人同時還併發了其他大於 100 mm³ 且非 PFN 類型的可疑結節。經過嚴密交叉比對,全世代中僅有區區 24 位受試者,是單純因為一顆體積過大的典型 PFN 而被系統強行推入人工複閱名單。計算下來,在全部 1252 份初次基線掃描中,這種特定情境所造成的實質額外閱片負擔僅佔 1.9%。更為重要的是,針對這 57 顆被 AI 誤當作潛在風險的典型 PFN,後續完整的組織學檢驗與長期追蹤證實,其臨床惡性率為絕對完美的 0% (0/57),再次為「典型形態即為良性」的診斷準則背書。

典型 PFN 對受試者複閱負擔的實質影響

絕多數典型 PFN 因結節共存效應,並未增加獨立閱片負擔

結節共存效應與 57 顆典型病灶的處置思維

進一步拆解這 1.9% 背後的臨床營運邏輯,我們會發現「結節共存現象」扮演了大幅度稀釋無效工作量的決定性角色。在具備數十年抽菸史或慢性阻塞性肺病的高齡受試族群中,肺臟內部往往存在著多處微小疤痕、發炎灶與局部淋巴結增生。當軟體敏銳地抓到一顆體積偏大的典型 PFN 時,這位病患的另一葉肺部通常也有極高的機率藏有一顆形狀不規則、需要人類醫師親自定奪的非 PFN 結節。既然這份電腦斷層掃描檔案無論如何都必須在工作站螢幕上被打開檢視,這顆伴隨出現的 PFN 其實只會花費影像科醫師不到幾秒鐘的肉眼辨識時間,在總體醫療營運層面上,這根本沒有增加所謂的「額外審閱案件數」,也並未干擾系統全自動過濾健康病患的核心效率。

另一方面,論文中將非典型形態與典型 PFN 明確切開進行獨立探討,也是一項極具日常實務價值的分類操作。在真實的臨床閱片情境中,只要一顆靠近肺裂的結節沒有呈現完美的邊緣平滑三角形,或是未能明顯觀察到與周遭肺裂組織的精確相連,醫師就絕對無法安心套用「保證良性淋巴結」的豁免條款。這意味著即使未來的 AI 系統演化出無懈可擊的形態學過濾模組,那些稍微呈現圓形、邊緣帶有微小棘狀突起、或內部密度不均的非典型 PFN,基於安全性考量,依然必須強制進入人類醫師的待辦清單中。這也反向證明了,要求演算法先行排除所有靠近肺葉邊界的結節是不切實際的妄想,純粹基於 100 mm³ 的客觀體積進行第一波暴力攔截,反而是當前兼顧高靈敏度與運作效率的最佳折衷方案。

單一基線輪次的限制與未來演算法的適用範圍

針對這項研究結論的廣泛適用性,作者團隊在討論階段非常誠實地提出了幾項無法迴避的學術限制。首要且最大的考量在於,這批高達千人的影像資料完全來自於 UKLS 試驗的 Baseline screening(初次基準線篩檢) 階段。在進入長達數年的 Incidence screening(年度發生率追蹤篩檢) 中,新長出的結節或是體積在短時間內快速劇增的病灶,其惡性機率分佈與病理學特徵通常會與最初的基準線截然不同。雖然歷史上著名的 NELSON 試驗早已證明,那些體積呈現快速生長的典型 PFN 絕大多數仍屬於單純的良性淋巴結發炎腫脹,但這種鎖定在單一時間點的橫斷面計算方式,依然可能無法完全精確預測連續追蹤五年以上的長期動態工作量起伏。

此外,本項分析全程綁定單一廠牌的 AI 軟體執行純粹的體積量測作業。不同商用深度學習模型在結節邊界切割演算法上的細微差異,往往會直接導致最終輸出的 3D 體積計算產生一定程度的浮動誤差。這意味著若醫院改用另一套對肺裂周邊微小組織特別敏感的運算系統,被判定超過 100 mm³ 閾值的 PFN 絕對數量可能會有些微的增減波動。然而,考慮到這些典型病灶在整個篩檢母體中的基礎盛行率僅有微小的 3.9%,即便軟體演算法產生合理範圍內的變異,其對科室總體閱片負擔的衝擊依然會被穩穩壓縮在極低的水位之內。因此,對於正準備導入全自動初篩流程的放射科主任而言,這份數據提供了強而有力的營運定心丸:醫療院所完全不必強求軟體廠商額外開發複雜且容易出錯的形態學過濾模組,將所有的資源與心力集中投資在降低非 PFN 類型的假陽性通報上,才是實質提升龐大肺癌篩檢產能的最有效路徑。

在評估導入肺癌 AI 優先篩檢系統時,別再執著於演算法會不會無腦誤判良性肺裂結節了;只要嚴守 100 mm³ 的體積門檻,這批典型的無害病灶只會佔據你不到 2% 的無效開片時間。

Abstract

Objective To evaluate the effect of perifissural nodules (PFNs) on radiologist workload within an AI-first reader workflow for lung cancer screening, given that AI cannot morphologically classify benign PFNs measuring ≥ 100 mm3. Materials and methods One thousand two hundred fifty baseline low-dose CT scans from the UK Lung Screening (UKLS) Trial were analyzed. A commercially available AI software automatically identified all nodules with solid components ≥ 100 mm³ per the NELSON 2.0-European Position Statement (EUPS) guideline. Three readers independently performed PFN classification, with a senior radiologist with over 20 years of experience performing an arbitration read for the final reference classification (typical PFN, atypical PFN, or non-PFN). Histological outcomes for all fissure-attached nodules were reviewed to confirm benignity. The proportion of participants where a benign typical PFN was the sole finding of nodule presence ≥ 100 mm³ was calculated, representing the extra workload for radiologists to review. Results A total of 1252 participants (mean age, 68.5 ± 4.0 years; 928 men [74%]) were analyzed. AI detected 838 nodules with solid components ≥ 100 mm³ in 431 (34%) participants. 57 nodules in 49 (3.9%) participants were classified as typical PFNs by the reference standard. Only 24 of 1252 participants (1.9%) had a typical PFN ≥ 100 mm³ as the sole finding that added extra workload. No typical PFNs (0/57) were malignant. Conclusion The impact of typical PFNs on the maximum achievable radiologist workload reduction in an AI-first reader workflow is negligible, with only 1.9% of participants requiring additional radiologist review triggered solely by these benign nodules. Key Points Question In an AI-first lung cancer screening workflow, do typical PFNs ≥ 100 mm3 create a significant bottleneck for radiologist workload? Findings In the UKLS trial, typical PFNs ≥ 100 mm³ were rare, creating negligible extra workload (1.9% of participants), and none were malignant (0/57). Clinical relevance The concern that PFN morphology creates a bottleneck in AI-first screening workflows is unfounded. Our findings support the feasibility of volume-based AI triage, allowing radiologists to focus on other false positives without being overwhelmed by PFNs. Graphical Abstract