Amide proton transfer and arterial spin labeling for non-invasive molecular stratification of glioma: a multi-dataset imaging biomarker study.
直腸癌 CT 重測只有 1.7% 的特徵可重複,這篇系統性回顧梳理了放射組學從採集到建模的全鏈路信度漏洞,並給出 LASSO、PyRadiomics、ComBat 等具體補救工具。
- 同樣 542 個 CT 特徵,肺癌重測通過率 82%,直腸癌不到 2%——呼吸運動是決定 CT 放射組學可重複性的關鍵變數。
- MRI 放射組學重測研究顯示 63% 特徵不可重複,缺乏絕對強度基準使跨中心比較成為系統性難題。
- LASSO 正則化搭配巢狀交叉驗證,是小樣本場景下避免過度擬合、同時完成特徵選取的最具操作性組合。
從同一批直腸癌 CT 掃描中抽出 542 個影像特徵,最終只有 9 個通過重測信度門檻——換成肺癌患者同樣的 542 個特徵,通過率卻達到 82.3%。放射組學(Radiomics)以量化影像特徵媲美基因組分析的雄心,長期被「可重複性」問題擋在臨床落地的入口。這篇來自首爾峨山醫療中心的系統性回顧,梳理了從影像採集、病灶分割到統計建模的全鏈路挑戰,並整理了當下最具操作性的解法。
高維度困境:特徵越多,可信的越少
放射組學的基本邏輯是從 CT、MRI 或 PET 影像中自動計算數百乃至數千個量化特徵(形狀、紋理、灰階統計等),再用機器學習建構診斷或預後模型。這套方法天生面臨「大特徵、小樣本」的統計困境:50 個患者的研究能跑出 1,000 個特徵,統計上幾乎必然過度擬合,且特徵之間高度相關——「run 數量」與「run 百分比」本就是數學衍生關係,大量特徵實際上只攜帶重複信息。另一個被低估的問題是「群集數據」:當同一腫瘤的多個子區域都被納入分析,同一患者貢獻了多筆觀測值,違反了多數統計檢定「獨立性」的基本假設,會造成靈敏度與特異度估計的系統性偏差。
重測信度實測:肺癌 82%、直腸癌不到 2%、MRI 僅 37%
論文梳理了大量真實測試數據,揭示了可重複性問題的實際規模。直腸癌 CT 重測分析中,542 個特徵僅 9 個(1.7%)的一致性相關係數(CCC,Concordance Correlation Coefficient)超過 0.85;肺癌 CT 同樣測試,通過率卻高達 446/542(82.3%)。兩者落差來自呼吸運動——呼吸是肺癌 CT 的最小干擾源,卻是直腸癌掃描的最大噪音。幻影(Phantom)在受控條件下表現最佳,96% 的特徵通過 CCC > 0.85。
MRI 的情況最棘手:目前僅有一項三次重複採集的重測研究,1,043 個特徵中只有 386 個(37.0%)通過 CCC > 0.8。MRI 像素強度沒有絕對物理基準,受驅動序列、場強、重建參數影響極大,跨中心比較形同「蘋果對橘子」。跨機器測試的結果同樣分歧:五台不同 CT 機器的幻影研究顯示,可重複特徵比例從最低 15.8% 到最高 85.3% 不等,物質特性本身決定了穩定性的上限。
三層補救工具:採集、分割、運算各有解法
論文將可重複性問題拆解為三個層次,每層給出具體工具。影像採集層:推薦使用量化映射圖(如 ADC 表觀擴散係數、CBV 腦血容量),這類圖像基於物理方程計算,跨中心可比性優於原始灰階影像。另一個策略是「δ-放射組學(Delta Radiomics)」——計算治療前後特徵的相對變化量,讓個體差異自我消除,適用於縱向追蹤治療反應的研究設計。
分割層:分割被稱為放射組學「最關鍵、最有挑戰性的環節」。半自動分割的組內相關係數(ICC)達到 0.85±0.15,優於手動的 0.77±0.17,但差距仍有改進空間。深度學習全自動分割展示了突破性進展——在腦瘤分割競賽中速度比其他機器學習演算法快 30 倍,且穩定性更高,被視為長期解法。運算層:推薦使用標準化開源平台 PyRadiomics 統一特徵計算;ComBat 函數(原為基因微陣列批次效應校正開發)在 PET 和 CT 上已展示了跨設備均質化效果,能在不改變生物信息的前提下補償設備差異。
LASSO 與巢狀交叉驗證:小樣本的最佳組合拳
縮減了可重複特徵集後,仍面臨降維與建模難題。篩選法(Filter)對每個特徵逐一跑 t 檢定或 ANOVA,簡單但有多重比較問題——1,000 個特徵同時測試,偽陽性會急速累積,建議用 False Discovery Rate 取代過於保守的 Bonferroni 校正。
正則化模型是更主流的選擇。LASSO(最小絕對收縮與選擇算子,Least Absolute Shrinkage and Selection Operator)能把部分特徵的 beta 係數壓縮到精確的零,等同於自動刪除;面對互相關聯的特徵群時,傾向保留一個代表。Elastic Net 的行為不同:相關特徵群要麼整批進入模型、要麼整批剔除,更適合特徵成群相關的場景。驗證策略上,論文推薦巢狀交叉驗證(Nested Cross-Validation)——在訓練集內部再跑一層交叉驗證來選 LASSO 調參係數,避免「用了測試集信息選特徵」的信息洩漏。Bootstrap 法則適合估算模型的「樂觀偏差」並校正表觀準確率。Random Forest 和深度學習雖然自帶特徵選取機制,但在放射組學的小樣本情境下風險較高,適合樣本量已達數千的場景。
放射組學的可信度危機不在演算法,而在整條管線的每一個環節——重測、多機器、多讀者驗證通過之前,模型的 AUC 不過是訓練數據的記憶,而非臨床洞察力。