Effects of Computed Tomography Technical Parameters on Body-Composition Analysis.

Yoo Jin Young, Choi Moon Hyung

View Original ↗
AI 導讀 technology AI 重要性 4/5

RouteGAN 影像轉換能讓不同廠牌 CT 上的肺纖維化 AI 量化準確率翻倍,但要當心毛玻璃病灶流失。

  • 將異質影像統一轉換後,纖維化分數的 Dice 相似係數從 0.32 躍升至 0.64。
  • 網狀病灶與蜂窩狀改變在轉換後辨識度極高,五位醫師的主觀評分進步 20%。
  • 生成式網路會抹除細微紋理,毛玻璃病變的像素召回率反而從 42% 暴跌至 19%。

把非標準化 CT 轉換為標準格式後,雖然整體纖維化量化準確率翻倍,但毛玻璃病變的像素召回率卻從 42% 暴跌至 19%。跨廠牌與重建參數的影像轉換,確實能讓人工智慧辨識蜂窩狀改變與網狀病灶的 Dice 相似係數從 0.19 大幅爬升至 0.47,但並非所有間質性肺病特徵都能在生成式對抗網路的轉換下受益。

解決跨院區掃描參數對間質性肺病量化的干擾

放射科醫師在評估間質性肺病(ILD)時,高解析度電腦斷層掃描是不可或缺的黃金標準工具。然而,人類肉眼在判讀肺纖維化、蜂窩狀改變或網狀病灶時,往往存在極大的觀察者間變異性。為了克服主觀判讀的侷限,過去十年來,許多基於直方圖或複雜紋理分析的自動量化軟體被陸續開發出來。這些工具不僅能提供客觀的疾病嚴重度量化指標,更能與肺功能測試結果高度相關,甚至被證明可用於預測病患的存活率與整體預後。

但當我們要將這些深度學習自動量化模型應用於跨院區的臨床環境時,馬上會面臨一個難以忽視的技術障礙。影像的紋理特徵極度依賴掃描時的技術參數,例如重建核心(reconstruction kernel)、輻射劑量大小,以及不同機器廠牌本身固有的物理特性與訊號處理機制。當一套軟體在單一特定條件下訓練完成後,一旦遇到來自其他院區、不同掃描機型的影像,其量化準確度往往會呈現斷崖式的下跌。這使得大規模的回溯性研究、長期縱向追蹤或是多中心臨床試驗中,難以維持一致的數據品質。

過去的研究曾嘗試使用傳統的卷積神經網路來進行影像轉換,試圖降低重建核心對肺氣腫指數或 radiomics(從影像自動抽取上千個隱藏量化特徵的技術)的干擾。但那些早期方法需要來自同一組原始數據的「成對影像」來進行監督式模型訓練,在臨床現實中,我們幾乎不可能為了訓練演算法而讓病患接受多次不同參數的輻射暴露。為此,本研究團隊導入了 RouteGAN(一種可處理未成對影像的生成式對抗網路)。這套網路能在不需要成對訓練資料的情況下,執行無監督的影像對影像翻譯。這意味著它能同時跨越不同掃描參數與廠牌的限制,將各種異質影像統一轉換為單一目標風格,試圖從根本上統一演算法的輸入端影像品質。

涵蓋四家廠牌與七大類掃描參數的受試者池

為了驗證這種轉換演算法的真實可靠性,研究團隊從七間三級轉診中心回溯性收錄了大量病患資料。這些病患均經過多專科團隊會議(包含經驗豐富的臨床專家、放射科醫師與病理科醫師)確診為間質性肺病,且在接受掃描的當下並無合併肺炎、肺癌或急性惡化等複雜干擾狀況。最終納入分析的受試者共有 150 位獨立個案,平均年齡落在 67.6 ± 10.7 歲,其中包含 56 位女性患者。

團隊收集到的非顯影薄切胸部電腦斷層影像,涵蓋了四家不同的主力掃描儀廠牌(代號 A 到 D)、標準或低輻射劑量設定,以及銳利或中等重建核心。根據這些獲取條件的組合,所有影像被嚴格分類為七大群組。其中 Group 1 被設定為標靶影像風格(A 廠牌、標準劑量、銳利核心),因為後續負責執行量化的深度學習軟體主要是利用符合這類參數的影像池訓練出來的。其餘六組包含了各種臨床常見的變異:例如 Group 2 是 B 廠牌標準劑量銳利核心、Group 4 是 B 廠牌低劑量銳利核心,而 Group 7 則是同為 A 廠牌但改用中等重建核心。

在測試資料庫的建立上,一位具備 12 年胸腔次專科經驗的放射科專家在完全盲化的情況下,從 150 位病患的圖庫中精挑細選了 350 張切片。選擇標準嚴格要求每張切片上必須含有至少 10% 面積的間質性肺病特徵,且不能夾雜其他非相關的肺部實質異常。接著,研究團隊啟動 RouteGAN 將 Group 2 到 Group 7 的原始影像全數轉換為 Group 1 的標靶風格。作為驗證的絕對參考標準,該名專家使用軟體的手動圈選工具,仔細繪製出正常肺部、蜂窩狀改變、網狀病灶、毛玻璃病變、實質化以及肺氣腫等六種區域。最終再讓軟體分別於原始影像與轉換後影像上執行量化對比。

研究流程與群組設定
群組廠牌 / 劑量 / 重建核心影像角色
Group 1A廠 / 標準 / 銳利轉換目標 (Target)
Group 2B廠 / 標準 / 銳利待轉換影像
Group 4B廠 / 低劑量 / 銳利待轉換影像
Group 7A廠 / 標準 / 中等待轉換影像 (低 DSC)

以 Group 1 為標靶風格進行轉換

Table 2 顯示纖維化分數與網狀病灶的顯著提升

攤開實驗數據,影像風格轉換帶來的增益在特定的慢性病理特徵上非常顯著。觀察整體異常區域的空間重疊準確度,在 Table 2 的統計分析中,原始影像與轉換後影像的 Dice 相似係數(DSC)平均從 0.63 顯著提升至 0.68(p < 0.002)。不僅如此,像素級別的召回率也從原先的 0.66 升至 0.70,像素級別的精密度則從 0.68 穩定進步到 0.73。這些堅實的數據證實了,將異質影像統一為 AI 偏好的特定風格,確實能強化深度學習模型偵測病灶的整體穩定度與涵蓋範圍。

更值得放射科醫師關注的是不可逆纖維化特徵的表現。纖維化分數(在該研究中定義為蜂窩狀改變與網狀病灶的總和)的 DSC 從原本極度不可靠的 0.32,一口氣翻倍飆升至 0.64(p < 0.002)。若進一步拆解,蜂窩狀改變的 DSC 從 0.19 大幅成長至 0.47,網狀病灶的 DSC 也從 0.23 爬升至 0.54。這表示當不同機器造成的雜訊紋理被標準化成銳利邊緣後,演算法不再容易將正常的微血管或重疊組織誤判為網狀結構,進而大幅提高了空間圈選的一致性與可信度。

這種準確度的物理性躍升,也完美反映在人類專家的視覺評估上。由五位獨立資深胸腔放射科醫師進行的 10 分制視覺盲測評分顯示,軟體在原始影像上自動切割的平均得分僅有 6.35 分(大約等同於 60% 至 69% 的臨床認同度)。一旦轉換為目標風格後,AI 自動切割的平均分數大幅攀升至 7.64 分(p < 0.001),且各個組別間的給分變異度明顯縮小,整體表現大幅拉近了與人類專家手繪參考標準(平均 8.54 分)之間的距離。

轉換前後各病理特徵之 DSC 比較

纖維化指標大幅進步,但毛玻璃無變化

Figure 3 點出毛玻璃與實質化病灶的轉換陷阱

儘管纖維化指標呈現出全面性的上揚,但這套基於生成式網路的轉換模型絕非適用於所有病理特徵的萬靈丹。若仔細檢視 Figure 3 所展示的像素級別混淆矩陣分析,會發現演算法在轉換過程中,無意間抹煞了部分病灶的關鍵細節。最慘烈的犧牲者是毛玻璃病變(GGO),其像素召回率在影像轉換後從 42% 顯著崩跌至 19%(p < 0.002)。實質化病灶的 DSC 更是從 0.14 進一步滑落至 0.07,而肺氣腫的 DSC 也微幅從 0.14 掉到 0.12。

為什麼在同一個模型下會出現這種極端的兩極化結果?問題的核心在於不同肺部病灶的固有物理紋理。蜂窩與網狀病灶擁有強烈且連續的空間幾何邊緣,生成式對抗網路在執行影像風格轉換(尤其是往標準劑量、銳利核心轉換)時,非常容易凸顯並保留這些高對比的清晰特徵。相對的,GGO 與實質化的影像特徵極度細微,它們高度依賴原始掃描機器的特定雜訊分佈、輻射劑量留下的微小波動與低對比度解析度。

當模型強行將 B 廠牌低劑量的影像轉換為 A 廠牌銳利風格時,它極有可能將這些細微的軟組織密度變化當成干擾雜訊給徹底濾除。另一種常見的錯誤是,因為轉換過程過度強化了影像中微小結構的邊緣,導致量化軟體將原本均勻的 GGO 區域誤判為網狀病灶的延伸。這導致在轉換後的影像上,正確被歸類為 GGO 或實質化的像素總面積大幅縮水。這強烈提醒了我們,在使用這類影像標準化工具時,必須針對不同的病理型態給予不同程度的信任權重。

像素召回率與 DSC 衰退細節
病灶類型指標原始影像轉換後p 值
毛玻璃 (GGO)像素召回率42%19%<0.002
實質化 (Consolidation)DSC14%7%<0.002
肺氣腫 (Emphysema)DSC14%12%0.037 (不顯著)

細微紋理病灶在轉換中流失

Table 3 揭示的次群組差異與核心演算法限制

除了病灶種類的差異,Table 3 針對不同設備來源進行的多變數迴歸分析,也展示了各群組對轉換機制的反應不盡相同。以 Group 7(同為 A 廠牌但使用中等重建核心)為例,其原始影像的纖維化 DSC 在所有組別中敬陪末座,顯示出重建核心對紋理分析的殺傷力甚至超越了跨廠牌的差異。幸運的是,在經過影像轉換後,該組的 DSC 獲得了極為顯著的補償,回歸到整體平均水準。

然而,在追求高涵蓋率的同時,演算法也付出了代價。在像素級別的精密度上,Group 2、5、6、7 其實在轉換後都呈現了微幅下降的趨勢(雖然部分數據在統計學上並未達顯著差異)。這代表轉換機制雖然賦予了自動量化軟體更大的信心去圈選纖維化區域(因為召回率的上升幅度遠大於精密度的下降),但同時也稍微增加了模型將正常組織過度判讀為纖維化的偽陽性風險。

作者在討論章節中也誠實列出了這項技術目前無法跨越的侷限。首先,本研究的所有空間重疊計算與面積加總,都是基於 2D 單一切片進行的運算,而非立體的 3D 體積分析。間質性肺病的病理分佈在空間中是三維延伸的,單一切片的進步幅度,未必能完全線性映射到整顆肺臟的體積變化準確度上。此外,考量到人工標註的極度耗時,該研究的參考標準僅來自單一放射專家的手動圈選,雖然專家間的視覺評分具備高度一致性,但單一人工標註本質上仍難以完全摒除主觀的視覺閾值偏差。

臨床啟示與 2D 切片量化的未來挑戰

除了 2D 運算的先天限制,本研究僅針對七種最常見的 ILD 掃描設定進行測試,且通篇只使用了一套特定商用軟體(Aview)來執行量化。對於臨床上可能遇到的更極端重建參數組合,或是其他架構迥異的深度學習分割模型,這種基於 RouteGAN 的轉換效應是否同樣穩健,仍是一塊未知的版圖。未來的研究需要涵蓋更廣泛的參數光譜,並嘗試導入全肺 3D 體積轉換,才能真正確立這項技術的普適性。

對於在臨床前線負責看片與整合報告的放射科同行來說,這篇研究給出了一個極具操作性的指引方針:如果你的首要任務是整合多家醫院的長期追蹤資料,用以評估病患不可逆網狀與蜂窩纖維化的進展,利用生成式網路進行影像參數標準化,將是拉近數據基準線、減少批次效應的絕佳武器。但反過來說,若你面對的病患正處於間質性肺病的急性發炎期,主要影像表現是大範圍的毛玻璃變化與肺泡實質化,請務必意識到影像轉換機制可能會不知不覺中「吃掉」這些低對比的關鍵病灶。在這種特定的情境下,保留原始影像的原始紋理,往往比強行追求跨院區的一致標準化風格來得更加安全可靠。

要跑多中心 AI 肺纖維化量化,先用 GAN 統整廠牌參數能救回網狀病灶,但看到滿肺 GGO 時,請回頭相信你的原始影像。

Abstract

Body-composition analysis (BCA) is gaining increasing clinical importance, because abnormalities in muscle and fat distribution are closely associated with patient outcomes for various diseases. Although several methods for assessing body composition are available, including bioelectrical impedance analysis, dual-energy X-ray absorptiometry, and magnetic resonance imaging, computed tomography (CT) has emerged as the most widely used imaging modality owing to its accuracy, accessibility, and artificial intelligence-driven automated analytical capabilities. CT-based BCA enables the precise quantification of skeletal muscle and adipose tissues, but its measurements can be influenced by various technical factors, such as the contrast phase, tube current and voltage, slice thickness, reconstruction algorithm, and scanner type. These parameters particularly affect attenuation-based metrics such as muscle density. Recent technological advancements, such as iterative reconstruction, dual-energy CT, and photon-counting CT, have resulted in new capabilities but may further introduce variability. This review summarizes the effects of CT parameters on BCA results and underscores the need for awareness and consistency when performing CT-based BCA. A better understanding of these factors may improve measurement reproducibility and support broader clinical and research applications.