Quality of Evidence and Clinical Impact in Recent Neuroradiology Research: A Systematic Assessment of American Journal of Neuroradiology (AJNR) Articles [HEALTH POLICIES/QUALITY IMPROVEMENT/EVIDENCE-BASED NEUROIMAGING]

Ghozy, S., Futela, D., Singh, A., Kaur, H., Moily, R., Payabvash, S., Gandhi, D., Wintermark, M., Malhotra, A.

View Original ↗
AI 導讀 academic policy 重要性 4/5

AJNR 逾千篇文獻總體檢:高達 62% 研究僅停留在診斷準確率,AI 論文的證據等級意外碾壓新 MRI 序列。

  • 2018至2022年間,AJNR 收錄的 1085 篇論文平均證據等級為 2.67,超過半數(54.5%)屬於第三級回顧性研究。
  • AI 與軟體診斷研究的證據等級(EL 2.02)顯著優於開發全新造影序列的技術型論文(EL 2.72,P < 0.001)。
  • 高達 62% 的研究僅具備 CE-2(診斷準確度)的臨床效能,僅 11.4% 觸及病患預後,探討成本效益者不到 1%。

放射科每天追捧的新造影序列,其學術證據等級居然比 AI 軟體驗證文還要低(2.72 vs 2.02)。如果學術界只在乎 AUC 卻不問病患最終的臨床療效,我們每天打報告時,到底該相信並導入哪些最新指引?

這正是 Mayo Clinic 與 Yale 大學神經放射團隊聯手進行這項大型系統性評估的初衷。在實證醫學(Evidence-Based Medicine)的框架下,我們不僅要看一篇論文的 p 值是否顯著,更要檢視其研究設計的穩健度與臨床適用性。本研究針對美國神經放射學會官方期刊 AJNR(American Journal of Neuroradiology)近年的海量發表進行了地毯式盤點,旨在釐清當前神經放射學研究的品質水位。對於無暇仔細審視每篇論文設計架構的臨床醫師而言,這篇研究直接為我們過濾了近年文獻的整體可信度,並點出我們在閱讀新技術文獻時必須具備的批判性思維。

比較 2018 與 2021 兩大梯次的收案與證據分級框架

從 Methods 來看,研究團隊系統性回顧了 AJNR 在 2018 至 2019 年(共 592 篇)以及 2021 至 2022 年(共 493 篇)兩個關鍵時間段內的所有原創研究,最終納入高達 1085 篇文獻。研究排除了社論、回顧性文章與純病例報告,確保分析對象皆為具備原始數據的實質研究。為了進行量化評估,團隊採用了放射學界公認的兩大標準:EL(Level of Evidence,牛津實證醫學中心定義的 1 到 5 級,數字越小代表證據越強,如 RCT 為 1 級,專家意見為 5 級)以及 CE(Clinical Efficacy,基於 Fryback-Thornbury 療效階層的 1 到 6 級,數字越大代表臨床價值越高)。

除了 EL 與 CE,作者亦將文獻依據研究屬性細分為診斷型、預後型、治療型與經濟評估型。同時,詳細記錄了各研究的設計架構(前瞻性 vs. 回顧性)、世代收案方式(連續收案 vs. 非連續收案),並追蹤了這些文章的被引用次數。透過對比 2018-19 與 2021-22 兩個梯次的數據,我們得以觀察神經放射學界在疫情前後,其學術產出品質與臨床導向的動態演變。

比較 2018 與 2021 兩大梯次的收案與分佈
時間區間 / 評估指標論文數量與佔比核心特徵
收案總量1085 篇 Original Articles排除回顧文章與純病例報告
2018-2019 梯次592 篇84% 屬於單純診斷型研究
2021-2022 梯次493 篇整體平均證據等級 (EL) 顯著進步
證據等級中位數54.5% 屬於 EL-3多為非連續收案的特定機構回顧性分析

資料來源:AJNR 1085 篇原創研究系統性回顧

Table 1 呈現高達 54.5% 的 EL-3 證據等級困境

把焦點拉到 Results 的整體數據,這 1085 篇文獻的平均 EL 為 2.67(標準差 SD 0.85)。具體而言,有超過一半(54.5%)的文章被歸類在 EL-3。在實證醫學中,EL-3 通常代表「非連續收案的回顧性世代研究」或「缺乏獨立參考標準的對照研究」。這意味著,我們在 AJNR 上讀到的大多數新發現,其實是基於特定機構內已獲取影像的病患進行回溯分析,而非嚴格控制的前瞻性試驗。

若細看 2018-19 年的 592 篇文獻,絕大多數(84%)屬於診斷型研究。在這個梯次中,單純探討診斷準確率或監測效能的研究,其證據等級明顯較強(EL 平均 2.10 ± 1.0);相對地,試圖證明「臨床實用價值(clinical-utility)」的研究,其證據等級反而較弱(EL 平均 2.91 ± 0.7;P < 0.001)。這種現象的成因在於,設計一個單純比對 AUC 的準確率研究相對容易達到較好的統計框架,但要證明一項技術在真實臨床環境中有用,往往受限於回顧性病歷追蹤的諸多交聯變數。此外,研究也證實了學術界的賞罰機制:EL 分數越低(證據越強)的文章,其被引用頻率顯著較高(P < 0.001)。

AI 軟體驗證與新造影序列在證據等級的差距

時間推進到 2021-22 年的 493 篇文獻,整體神經放射學的平均 EL 從前一梯次的 2.75 ± 0.81,顯著進步至 2.58 ± 0.87(P < 0.001)。推動這項進步的主要動力,來自於診斷準確率研究與 AI 軟體驗證論文的大量湧現。在 2021-22 年間,診斷監測與準確率研究的 EL 達到了極佳的 1.73 ± 0.8。

這裡出現了一個極具啟發性的次群組數據:那些利用 AI 或電腦輔助軟體進行診斷的研究,其證據等級顯著優於其他類別(EL 2.02 ± 0.8)。相比之下,我們平時最感興趣的「引入全新 MRI 脈衝序列或硬體技術」的研究,證據等級僅有 2.72 ± 0.9(與 AI 相比 P < 0.001);而「優化現有影像判讀框架」的研究,EL 則為 2.52 ± 1.0(與 AI 相比 P = 0.002)。為什麼會有這種反差?因為當前醫學期刊對 AI 演算法(如基於 nnU-Net 自動調架構的切割框架 或各種深度學習模型)的要求極高,通常需要大規模、多中心、甚至是前瞻性的連續收案驗證才能發表;反觀新穎的 MRI 序列(例如用磁振照出腫瘤酸鹼度的 CEST-MRI),往往只需 20 位健康志願者與少數病患的非連續性概念驗證(Proof of Concept)就能登上版面。

各類別診斷研究的證據等級 (EL) 比較

註:牛津 EL 分級數字越小代表證據等級越強 (1為最佳, 5為最差)

高達 62% 停留在 CE-2 診斷準確度的臨床瓶頸

然而,證據等級(EL)的提升,並不等於病患真正受益。這正是本篇論文最引人深思的部分。在臨床效能(CE)的評估上,1085 篇文獻的平均得分為 2.64(SD: 1.17)。Fryback-Thornbury 階層將療效分為 6 級,其中 CE-1 是純技術指標(如訊雜比 SNR),CE-2 是診斷準確度(敏感度、特異度、AUC)。令人訝異的是,高達 62%(670/1085)的研究被困在 CE-2 這個層級。

這代表超過六成的神經放射學論文,只證明了「這項技術能看出病灶」,卻無法回答「看出病灶後,臨床醫師會不會改變治療計畫?」(CE-4 治療決策),更別提「改變計畫後,病患存活率是否提高?」(CE-5 病患預後)。根據文獻統計,僅有 11.4% 的研究觸及了病患預後(Patient outcomes);而探討對整體社會醫療資源或成本效益影響(CE-6 社會與經濟影響)的研究,甚至不到總數的 1%。更嚴峻的是,這個低臨床效能的比例,在 2018 到 2022 年間幾乎呈現停滯,並未隨著 EL 的改善而有所突破。

高達 62% 停留在 CE-2 診斷準確度的臨床瓶頸

Fryback-Thornbury 療效階層分佈 (N=1085),缺乏改變預後的研究

突破 11.4% 預後研究天花板的未來臨床指引

作者在 Discussion 中坦承了本研究的侷限性。首先,這僅針對 AJNR 單一期刊進行分析,雖然它是神經放射學的指標性刊物,但可能無法完全代表一般放射學期刊或綜合醫學期刊(如 NEJM, Lancet)中神經影像文章的樣貌。其次,神經放射學本身帶有強烈的技術驅動特質,許多新技術在發布初期,客觀上只能先進行 CE-2 等級的準確度驗證,強求初期研究直接評估長期存活率並不切實際。

作為一線放射科醫師,這份報告給了我們非常實用的讀片與讀書指引。當我們在晨會或醫學會上聽到某種超炫的新型 MRI 序列,宣稱其 AUC 表現完美時,我們必須在心裡扣除它的「技術蜜月期」分數,並意識到其 EL 可能僅在 3 到 4 之間;相反地,當面對那些已經通過多中心驗證的 AI 軟體時,我們可以給予其更高的證據信任度。我們在決定是否要求醫院採購新軟體或改變常規 protocol 時,不能僅滿足於 CE-2 的準確度數據,而應主動尋找那 11.4% 真正能改變臨床 management 或減少病患 morbidity 的關鍵文獻。

你下次看到一篇聲稱 AUC 高達 0.95 的全新造影技術論文時,先自問它有沒有改變病患的治療決策;如果沒有,它就只是一個停留在 CE-2 的實驗室玩具,還不到改變你打報告習慣的時候。

Abstract

BACKGROUND AND PURPOSE:Evidence-based medicine frameworks in radiology emphasize rigorous study design and clinical applicability, yet the extent to which neuroradiology research aligns with these standards remains unclear. This study aimed to evaluate the methodological quality and clinical relevance of recent AJNR publications by assessing their evidence level (EL) and clinical efficacy (CE).MATERIALS AND METHODS:We systematically reviewed all original articles published in the AJNR in 2018-19 and 2021-22. Articles were classified by EL (scale 1&ndash;5) and by CE (scale 1&ndash;6). Study type (diagnostic, prognostic, therapeutic, economic), design (prospective vs. retrospective), cohort selection (consecutive vs. non-consecutive), and citation count were analyzed for associations with EL and CE and trends were assessed by comparing articles between 2018-19 and 2021-22.RESULTS:A total of 1085 articles (592 between 2018-19 and 493 between 2021-22) were included. The average EL was 2.67 (SD 0.85); over half were EL-3 (54.5%). Between 2018-19, majority of articles were Diagnostic (84%) and among them accuracy/monitoring studies had markedly stronger EL (2.10 &plusmn; 1.0) than clinical-utility studies (2.91 &plusmn; 0.7; P &lt; 0.001). Stronger EL correlated with greater citation frequency (P &lt; 0.001). Then in 2021-22, diagnostic monitoring/accuracy studies again had the strongest evidence (1.73 &plusmn; 0.8). In addition, AI- or software-based diagnostic studies demonstrated significantly stronger EL (2.02 &plusmn; 0.8) than those introducing new sequences or techniques (2.72 &plusmn; 0.9; P &lt; 0.001) or refining current frameworks (2.52 &plusmn; 1.0; P = 0.002). Average EL improved from 2.75 &plusmn; 0.81 to 2.58 &plusmn; 0.87 (P &lt; 0.001), driven by more diagnostic-accuracy and AI/software-based papers, categories linked to stronger evidence. According to CE, average score was 2.64 (SD: 1.17); 62% (670/1085) studies were CE-2, evaluating diagnostic accuracy. Few studies addressed patient outcomes (11.4%), or societal impact (&lt;1%), and the proportion remained stable during the study period.CONCLUSIONS:Most recent AJNR publications demonstrate moderate evidence levels and are concentrated at lower clinical efficacy tiers, primarily focused on diagnostic accuracy. High-level study designs and research evaluating impact on management, outcomes, or cost-effectiveness remain limited. These findings underscore the need for methodologically rigorous and clinically impactful neuroradiology research that aligns more closely with evidence-based practice and effectiveness/value analysis.