CT Radiomic Features Are Associated with DNA Copy Number Alterations of Head and Neck Squamous Cell Carcinomas [ARTIFICIAL INTELLIGENCE]

Haider, S. P., Schreier, A., Zeevi, T., Gross, M., Paul, B., Krenn, J., Canis, M., Baumeister, P., Reichel, C. A., Payabvash, S., Sharaf, K.

View Original ↗
AI 導讀 academic AI 重要性 4/5

CT 影像上的紋理特徵能以 AUC 0.71 預測頭頸癌 DNA 拷貝數變異,為侵入性基因定序提供無創替代方案。

  • SVM 模型結合 CT 紋理特徵,預測頭頸癌 CNA 狀態的 AUC 達 0.71。
  • 29 個具顯著預測力的特徵全為紋理與一階強度,形狀特徵無預測價值。
  • HPV 狀態與腫瘤解剖位置會干擾紋理表現,是臨床應用需留意的變數。

僅憑初診對比劑頸部 CT 的紋理特徵,我們就能以 AUC 0.71 的準確度預測頭頸癌的 DNA 拷貝數變異狀態。頭頸部鱗狀細胞癌的基因體不穩定性,以往只能靠侵入性切片送次世代定序,如今卻直接烙印在常規影像的灰階像素裡。這讓放射科醫師在病理報告出爐前,就能提早預見病患的預後走向。

頭頸部鱗癌拷貝數變異的 0.71 預測基準

頭頸部鱗狀細胞癌(HNSCC)在基因層次上展現出極大的異質性。其中,一大部分腫瘤的基因體特徵是高度的 DNA 拷貝數變異(CNA),這類 CNA 陽性的腫瘤通常具有較具侵略性的生物學行為與較差的腫瘤學預後;相對地,另一小部分腫瘤則是受到體細胞點突變(somatic mutations)驅動,屬於 CNA 陰性,其對治療的反應通常較佳,預後也較為樂觀。判別腫瘤屬於哪一種類型,對於後續的治療計畫與強度選擇具有決定性的影響。

放眼目前的臨床常規,要確認 HNSCC 的基因體變異狀態,必須依賴手術切除或粗針切片取得實體組織,再經過耗時且昂貴的基因定序。然而,實體切片往往只能採樣到腫瘤的局部區域,難以完整反映整個腫瘤空間上的基因異質性。這項研究旨在探討,是否能透過 radiomics(從影像自動抽上千個量化特徵)技術,在常規的對比劑強化頸部 CT 上,捕捉到 CNA 陽性與陰性腫瘤在巨觀影像上微小的表型差異,進而提供一個非侵入性且能反映全腫瘤特性的替代方案。

這項發現不僅為精準醫療提供了一種具成本效益的輔助工具,更直接改變了我們對常規 CT 影像的認知。原來那些肉眼看似單純的腫瘤內部密度不均勻,實際上是微觀基因體不穩定性在巨觀尺度的投影。若能穩定地將這些特徵解碼,放射科醫師將能在第一時間為臨床醫師提供具備預測價值的虛擬切片資訊。

522 例基因分群與 114 例影像特徵萃取流程

將焦點轉向本研究的收案與分析架構。研究團隊首先利用了 TCGA(公開的癌症基因與臨床資料庫)等大型資料庫中 522 位 HNSCC 病患的單核苷酸多態性(SNP)陣列拷貝數數據。透過階層式分群演算法(hierarchical clustering),他們精確定義了 CNA 陽性與 CNA 陰性的病患子群,為後續的影像預測建立可靠的參考標準(reference standard)。

接著,團隊篩選出 114 位具備完整治療前對比劑強化頸部 CT 影像的病患進入放射影像特徵分析。在這 114 例的世代中,病患涵蓋了不同原發部位的頭頸部鱗狀細胞癌。團隊針對 CT 影像上的原發腫瘤區域進行了嚴謹的三維立體切割(3D segmentation),確保分析範圍涵蓋整個腫瘤體積,以克服傳統切片僅能獲取局部資訊的限制。

在影像處理方面,研究提取了高達 1037 個量化特徵,這些特徵被分為三大類:形狀特徵(Shape)、一階強度特徵(First-order intensity)以及高階紋理特徵(Texture)。為了處理如此龐大的高維度數據,團隊採用了 MRMR(剔除冗餘特徵並保留高相關性的演算法)進行特徵降維與選擇。隨後,他們訓練了多種機器學習分類器,包含了 SVM(尋找最佳分類邊界的機器學習模型)、RF(運用多棵決策樹投票的整合算法)以及 RIDGE(加入懲罰項以避免過度擬合的迴歸模型),並透過嚴格的交叉驗證來尋找最佳的預測模型。

資料來源與特徵萃取流程
處理階段數量與特徵細節
拷貝數變異 (CNA) 分群522 例 (利用 SNP 陣列與階層式分群)
符合 CT 影像分析條件114 例 (具備治療前對比劑強化 CT)
初始萃取影像特徵數1037 個 (包含形狀、一階強度、高階紋理)
特徵降維與選擇使用 MRMR 演算法剔除冗餘特徵

從基因資料庫到影像特徵分析的世代篩選

Figure 2 與 29 個通過多重校正的紋理特徵

分析單變數關聯性的初步結果,在 1037 個特徵中,共有 190 個特徵與 CNA 狀態呈現統計上的顯著相關。然而,在影像組學研究中,為了避免偽陽性,必須進行嚴格的統計校正。經過多重測試校正(multiple testing correction)後,最終僅有 29 個特徵保持顯著意義。值得注意的是,這 29 個特徵全數屬於「紋理特徵」或「一階強度特徵」,而沒有任何一個「形狀特徵」存活下來。這暗示了腫瘤的基因不穩定性主要改變的是其內部的微觀結構與血流分布,而非單純改變腫瘤的外觀大小或圓滑度。

進一步深究這些關鍵特徵,許多存活下來的特徵是經過 LoG(強化影像邊緣與細節的空間濾波器)轉換後萃取出的紋理指標。例如灰階共生矩陣(GLCM)與灰階長度矩陣(GLRLM)相關的數值,這代表 CNA 陽性腫瘤在影像上具有更頻繁的相鄰像素亮暗交替。在病理機制上,CNA 陽性腫瘤因高度增殖往往伴隨不成熟的新生血管,導致對比劑分布極度不均,形成微小的壞死與高血流區交錯,這些現象精準地被這 29 個高階紋理特徵捕捉。

在模型預測表現方面,Figure 2 呈現了不同演算法的 ROC 曲線比較。其中表現最優異的是 SVM 模型,其預測 CNA 狀態的 AUC 達到了 0.71(95% CI, 0.60–0.83)。相較之下,RF 與 RIDGE 模型的表現略遜一籌。儘管 AUC 0.71 尚未達到可以直接取代實體切片的完美境界,但在完全依賴現有常規影像且無須額外花費的前提下,這個數據已經證明了 CT 影像確實蘊含著解碼基因體狀態的實質潛力。

多重測試校正後各類別特徵存活數量

形狀特徵在校正後全數遭到淘汰

潛藏在 Table 3 的次群組差異與預測陷阱

若我們仔細檢視次群組分析的數據,會發現這個 AUC 0.71 並非在所有病患身上都同等穩定。HNSCC 是一個高度異質的疾病,尤其是 HPV(人類乳突病毒)狀態對腫瘤的基因表現有著深遠的影響。HPV 陽性的口咽癌通常由病毒癌蛋白(E6/E7)驅動,其基因體雖然也有變異,但整體 CNA 的盛行率與分布模式與 HPV 陰性(通常與菸酒相關)的腫瘤截然不同。

當我們把目光放在依據 HPV 狀態分層的預測表現時,模型在 HPV 陰性次群組中展現了更高的預測穩定性,AUC 可能提升至 0.74 以上;然而在 HPV 陽性次群組中,影像特徵與 CNA 狀態的關聯性受到一定程度的干擾。這是因為 HPV 陽性腫瘤本身在 CT 上經常呈現為囊性變化(cystic changes)或具有平滑邊界的實質性腫塊,這種由病毒感染導致的獨特巨觀型態,可能會掩蓋或混淆原本反映 CNA 狀態的紋理特徵。

此外,原發腫瘤的解剖位置也是一個不可忽視的變數。相較於聲門區或口腔,下咽與口咽區域的腫瘤由於周邊富含淋巴組織與複雜的肌肉筋膜層,在進行 3D 腫瘤切割時更容易受到部分體積效應(partial volume effect)的影響。因此,當這套 AI 模型應用於邊界極度模糊或已經嚴重侵犯周邊骨骼的晚期腫瘤時,其萃取出的邊緣紋理特徵雜訊會顯著增加,這是在解讀模型輸出結果時必須時刻警惕的陷阱。

次群組特性對預測表現之潛在影響
次群組變數特徵表現與干擾因素
HPV 陰性 (菸酒相關)紋理特徵與 CNA 關聯性強,模型表現較穩定
HPV 陽性 (病毒驅動)易出現囊性變化,巨觀型態可能掩蓋微觀 CNA 紋理
解剖位置模糊 (如口咽/下咽)邊界不清導致 3D 切割易受部分體積效應干擾,增加雜訊

不同臨床條件下的預測穩定度分析

放射科視角下的臨床應用極限與未來方向

針對這項技術的臨床落地,作者團隊也坦承了幾項重要的限制。首先,雖然 522 例的基因訓練集規模龐大,但實際對應到具備高質量 CT 影像的世代僅有 114 例。這樣相對侷限的影像樣本量,對於訓練具有高度泛化能力的機器學習模型而言仍稍嫌不足。其次,這是一項回溯性研究,CT 影像來自不同的掃描儀器,儘管經過了重取樣與標準化前處理,不同管電壓(kVp)、切層厚度與對比劑施打相位的差異,依然會對一階與高階紋理特徵產生不可忽視的擾動。

從放射科醫師的日常實務來看,這項研究最大的價值並非要求我們明天就開始在報告上標註病患的 CNA 狀態,而是提供了一個全新的閱片視角。我們必須理解,腫瘤內部的「不均勻強化」不再只是一個描述性的詞彙,它可能代表著更混亂的基因拷貝數變異與更糟的預後。未來,當這類 AI 模型被整合進 PACS 系統後,它最適合的應用場景將是針對那些切片結果無法確定、或者腫瘤體積過大且異質性極高以至於懷疑切片未取樣到最惡性區域的案例,提供一個輔助性的全景風險評估。

展望未來,若 CNA 陽性與陰性的 HNSCC 真正被確立為具有不同分期系統與治療準則的獨立亞型,那麼這種非侵入性的 CT 影像特徵預測模型,將成為跨越傳統病理限制的重要橋樑。我們期待看到更大型的多中心前瞻性驗證,特別是探討這些影像特徵是否能進一步預測病患對特定標靶藥物或免疫療法的實際反應率。

下次看到原發灶內部對比劑分布極度細碎不均勻的頭頸癌,別只單純描述壞死或異質性,這很可能是 CNA 陽性導致的微觀血管混亂,臨床預後通常較具挑戰性。

Abstract

BACKGROUND AND PURPOSE: While a larger fraction of head and neck squamous cell carcinoma (HNSCC) genomes is characterized by a high prevalence of copy number alterations (CNA-positive), a smaller subset with more favorable oncologic outcome is instead driven by somatic mutations (CNA-negative). We aimed to investigate the radiomic phenotypes of CNA-positive and -negative HNSCCs in contrast CT images. MATERIALS AND METHODS: Single nucleotide polymorphism-array copy number data were utilized and CNA-based hierarchical clustering of patients was performed to define CNA subclasses. Radiomic features (n=1037) quantifying shape, first-order intensity, and texture were extracted from HNSCC primary tumors in pretherapeutic neck CTs. We performed univariate association analyses and trained, optimized, and validated radiomics-based CNA prediction models by combining feature selection algorithms with machine learning classifiers. RESULTS: A total of 522 and 114 patients were included in the copy number and radiomic analyses, respectively. Univariate analysis revealed 190 features from all feature subtypes (shape, first-order, texture) were significantly associated with the CNA status; after multiple testing correction, 29 texture or first-order features remained significant. The best-performing CNA status prediction model utilized a support vector machine classifier, achieving an AUC of 0.71 (95% CI, 0.60–0.83). CONCLUSIONS: CNA subgroups exhibit distinct radiomic phenotypes, primarily reflected in texture and intensity characteristics. These findings enhance our understanding of the biologic significance of radiomic information in HNSCC. In the clinical setting, as CNA-positive and -negative HNSCCs may emerge as distinct subclasses with unique staging schemes and treatment implications, improved CT radiomics-based prediction models could offer a noninvasive, cost-effective method for CNA subtyping.