PubMed Full Text 2026-Apr-23 DOI: 10.3348/kjr.2018.0070

Amide proton transfer and arterial spin labeling for non-invasive molecular stratification of glioma: a multi-dataset imaging biomarker study.

Essed Rajeev, Wamelink Ivar J, Petr Jan, Kuijer Joost, Wink Alle Meije, et al.

AI 導讀 technology AI 重要性 3/5

直腸癌 CT 重測只有 1.7% 的特徵可重複，這篇系統性回顧梳理了放射組學從採集到建模的全鏈路信度漏洞，並給出 LASSO、PyRadiomics、ComBat 等具體補救工具。

同樣 542 個 CT 特徵，肺癌重測通過率 82%，直腸癌不到 2%——呼吸運動是決定 CT 放射組學可重複性的關鍵變數。
MRI 放射組學重測研究顯示 63% 特徵不可重複，缺乏絕對強度基準使跨中心比較成為系統性難題。
LASSO 正則化搭配巢狀交叉驗證，是小樣本場景下避免過度擬合、同時完成特徵選取的最具操作性組合。

從同一批直腸癌 CT 掃描中抽出 542 個影像特徵，最終只有 9 個通過重測信度門檻——換成肺癌患者同樣的 542 個特徵，通過率卻達到 82.3%。放射組學（Radiomics）以量化影像特徵媲美基因組分析的雄心，長期被「可重複性」問題擋在臨床落地的入口。這篇來自首爾峨山醫療中心的系統性回顧，梳理了從影像採集、病灶分割到統計建模的全鏈路挑戰，並整理了當下最具操作性的解法。

高維度困境：特徵越多，可信的越少

放射組學的基本邏輯是從 CT、MRI 或 PET 影像中自動計算數百乃至數千個量化特徵（形狀、紋理、灰階統計等），再用機器學習建構診斷或預後模型。這套方法天生面臨「大特徵、小樣本」的統計困境：50 個患者的研究能跑出 1,000 個特徵，統計上幾乎必然過度擬合，且特徵之間高度相關——「run 數量」與「run 百分比」本就是數學衍生關係，大量特徵實際上只攜帶重複信息。另一個被低估的問題是「群集數據」：當同一腫瘤的多個子區域都被納入分析，同一患者貢獻了多筆觀測值，違反了多數統計檢定「獨立性」的基本假設，會造成靈敏度與特異度估計的系統性偏差。

重測信度實測：肺癌 82%、直腸癌不到 2%、MRI 僅 37%

論文梳理了大量真實測試數據，揭示了可重複性問題的實際規模。直腸癌 CT 重測分析中，542 個特徵僅 9 個（1.7%）的一致性相關係數（CCC，Concordance Correlation Coefficient）超過 0.85；肺癌 CT 同樣測試，通過率卻高達 446/542（82.3%）。兩者落差來自呼吸運動——呼吸是肺癌 CT 的最小干擾源，卻是直腸癌掃描的最大噪音。幻影（Phantom）在受控條件下表現最佳，96% 的特徵通過 CCC > 0.85。

MRI 的情況最棘手：目前僅有一項三次重複採集的重測研究，1,043 個特徵中只有 386 個（37.0%）通過 CCC > 0.8。MRI 像素強度沒有絕對物理基準，受驅動序列、場強、重建參數影響極大，跨中心比較形同「蘋果對橘子」。跨機器測試的結果同樣分歧：五台不同 CT 機器的幻影研究顯示，可重複特徵比例從最低 15.8% 到最高 85.3% 不等，物質特性本身決定了穩定性的上限。

各研究條件下放射組學特徵可重複率

三層補救工具：採集、分割、運算各有解法

論文將可重複性問題拆解為三個層次，每層給出具體工具。影像採集層：推薦使用量化映射圖（如 ADC 表觀擴散係數、CBV 腦血容量），這類圖像基於物理方程計算，跨中心可比性優於原始灰階影像。另一個策略是「δ-放射組學（Delta Radiomics）」——計算治療前後特徵的相對變化量，讓個體差異自我消除，適用於縱向追蹤治療反應的研究設計。

分割層：分割被稱為放射組學「最關鍵、最有挑戰性的環節」。半自動分割的組內相關係數（ICC）達到 0.85±0.15，優於手動的 0.77±0.17，但差距仍有改進空間。深度學習全自動分割展示了突破性進展——在腦瘤分割競賽中速度比其他機器學習演算法快 30 倍，且穩定性更高，被視為長期解法。運算層：推薦使用標準化開源平台 PyRadiomics 統一特徵計算；ComBat 函數（原為基因微陣列批次效應校正開發）在 PET 和 CT 上已展示了跨設備均質化效果，能在不改變生物信息的前提下補償設備差異。

LASSO 與巢狀交叉驗證：小樣本的最佳組合拳

縮減了可重複特徵集後，仍面臨降維與建模難題。篩選法（Filter）對每個特徵逐一跑 t 檢定或 ANOVA，簡單但有多重比較問題——1,000 個特徵同時測試，偽陽性會急速累積，建議用 False Discovery Rate 取代過於保守的 Bonferroni 校正。

正則化模型是更主流的選擇。LASSO（最小絕對收縮與選擇算子，Least Absolute Shrinkage and Selection Operator）能把部分特徵的 beta 係數壓縮到精確的零，等同於自動刪除；面對互相關聯的特徵群時，傾向保留一個代表。Elastic Net 的行為不同：相關特徵群要麼整批進入模型、要麼整批剔除，更適合特徵成群相關的場景。驗證策略上，論文推薦巢狀交叉驗證（Nested Cross-Validation）——在訓練集內部再跑一層交叉驗證來選 LASSO 調參係數，避免「用了測試集信息選特徵」的信息洩漏。Bootstrap 法則適合估算模型的「樂觀偏差」並校正表觀準確率。Random Forest 和深度學習雖然自帶特徵選取機制，但在放射組學的小樣本情境下風險較高，適合樣本量已達數千的場景。

放射組學的可信度危機不在演算法，而在整條管線的每一個環節——重測、多機器、多讀者驗證通過之前，模型的 AUC 不過是訓練數據的記憶，而非臨床洞察力。

Amide proton transfer and arterial spin labeling for non-invasive molecular stratification of glioma: a multi-dataset imaging biomarker study.

高維度困境：特徵越多，可信的越少

重測信度實測：肺癌 82%、直腸癌不到 2%、MRI 僅 37%

三層補救工具：採集、分割、運算各有解法

LASSO 與巢狀交叉驗證：小樣本的最佳組合拳

🔗 相關推薦

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 **84.3%** 排行榜最高分，並在 Google Chrome 挖出 **10 個** zero-day 含 2 個 Critical CVE。

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

5 參數視點 Token 精確控制文字轉圖像的相機視角，競爭方法 Compass Control 過擬合率達 94.2%，本文方法在鳳凰等未見類別上無此問題。

AgentFlow 自動合成多代理 harness，TerminalBench-2 達 84.3% 排行榜最高分，並在 Google Chrome 挖出 10 個 zero-day 含 2 個 Critical CVE。