Automatic framework for evaluating osteoarthritic cartilage severity: high-resolution cartilage thickness mapping and scoring

View Original ↗
AI 導讀 academic AI 重要性 4/5

AI 軟骨厚度分數不僅重現性極高,更能比傳統 X 光提早 6 年抓出退化性關節炎結構惡化。

  • CTh-Score 模型展現 ICC > 0.98 的極高穩定性,排除了人眼判讀 MOAKS 分數的疲勞變異。
  • 從 OAI 世代追蹤發現,AI 分數能在 X 光 KL 惡化的 6 年前,就偵測到軟骨的局部微小流失。
  • 這套自動化 0-100 分評估系統可大幅加速新藥臨床試驗,幫助精準篩選處於快速退化期的病患。

軟骨厚度分數能比傳統 X 光提早 6 年抓出退化性關節炎的結構惡化。評估膝關節軟骨流失時,我們常態仰賴半定量的 MOAKS(靠肉眼半定量評估 MRI 關節退化的分數)或間接的 KL 分級,這些主觀判讀難以精確捕捉微小且不均勻的變薄過程。本研究端出全自動深度學習框架,把追蹤多年的 MRI 變成高解析度厚度地圖,直接量化 0 到 100 分的嚴重度,為未來疾病修飾藥物療效判定鋪路。

膝關節軟骨流失量化挑戰與 100 分制架構

要精確衡量退化性關節炎(OA)的嚴重程度,放射科醫師常面臨工具不夠敏銳的窘境。日常閱片時最依賴的 X 光片 KL 分級,反映的是骨刺增生與關節間隙狹窄,往往到了疾病中晚期才會有顯著變化。當我們轉向解析度更高的 MRI,試圖直接評估軟骨狀態時,傳統做法仰賴醫師逐一分區填寫 MOAKS 評分表。這種方式不僅耗時費力,更因為人類肉眼對次毫米級別的厚度變化極不敏感,導致觀察者間與觀察者內的重現性(reproducibility)始終難以滿足大型臨床試驗的需求。

為了解決這個缺乏客觀尺度的痛點,研究團隊把目光轉向了端到端(end-to-end)的深度學習框架。他們不是單純讓 AI 去模仿人類打分數,而是先建構一個具備高度解剖學對應性的量化基準。透過將複雜的立體曲面轉化為標準化的二維矩陣,這套系統能夠精細保留每一處局部軟骨的厚度資訊。最終輸出的 0 到 100 分 CTh-Score 系統,等同於為原本難以捉摸的退化軌跡,定製了一把刻度極度細微的數位直尺。

從技術架構層面剖析,這套系統把任務拆解為影像切割與特徵評分兩大模組,各自交給最適合的神經網路架構來執行。這樣的拆分設計,不僅確保了中間產物(厚度地圖)的視覺可解釋性,也讓最終輸出的單一指標具有紮實的形態學基礎。對於需要高通量影像分析的 OA 世代研究而言,這種無需人工介入的管線設計,大幅降低了量化軟骨結構的時間成本。

4796 人 OAI 世代與追蹤 8 年的影像方法

要訓練並驗證這樣龐大的 AI 框架,需要極度厚實的資料庫支撐,團隊因此調用了著名的 OAI(Osteoarthritis Initiative)世代。這個大規模、多中心的觀察性研究,提供了 4796 位受試者的膝關節 MRI 影像。收案條件涵蓋了從完全無症狀的健康對照組,到已經出現嚴重結構性破壞的晚期 OA 病患。豐富的疾病光譜,確保了模型在學習過程中不會過度偏化於特定嚴重度的特徵。

影像處理的核心流程建立在連續的時間節點上。研究團隊收集了受試者在基準日(baseline),以及第 1、2、3、4、6、8 年回診時掃描的 3T MRI 影像。第一階段,模型導入了 3D-UNet(自動適應不同醫學影像的立體分割架構),負責在三維空間中精準框列出股骨、脛骨的骨骼邊界與覆蓋其上的透明軟骨。完成精準切割後,系統計算軟骨表面到骨軟骨交界處的三維距離,並將這些數值投射到解剖標準化平面上,生成所謂的 CTh-Maps(將立體軟骨厚度攤平成二維熱像圖)。

進入評分階段,團隊採用了 ResNet(擅長提取深層特徵的卷積神經網路)來讀取這些高解析度的厚度地圖。有別於傳統將特定區域厚度單純平均的粗暴做法,這套模型被訓練去捕捉厚度分布的空間紋理與不均勻流失模式。模型最終將整張地圖的狀態壓縮成一個綜合性的 CTh-Score,分數設定在 0(完全健康的豐厚軟骨)到 100(末期 OA 的大面積軟骨耗損)之間,並在一個獨立的外部資料集中測試其泛化能力。

Table 2 的 ICC 數據與 Figure 3 專家評分相關性

把焦點拉到模型的實際表現,穩定度是評估這類量化工具的首要關卡。在針對同一批受試者短期內重複掃描的 test/retest 驗證集裡,Table 2 明確列出了極為優異的重現性指標。無論是作為中間產物的軟骨厚度地圖,還是最終輸出的 CTh-Score,其組內相關係數(ICC)皆大於 0.98 [95% CI: 0.975–0.988]。這個數據意味著,只要影像品質達標,AI 每次給出的評估結果幾乎沒有浮動,徹底排除了人類醫師讀片時因疲勞造成的狀態起伏。

要證明這個 AI 分數不是毫無根據的亂數,必須將其與現有的臨床金標準進行對齊。若細看 Figure 3 畫出的散佈圖與迴歸曲線,CTh-Score 與三位資深肌肉骨骼放射科醫師共同給出的 MOAKS 軟骨流失等級之間,展現了高達 r = 0.81 (p < 0.001) 的強烈斯皮爾曼相關性。這表示模型確實學會了人類專家在看片時所重視的那些軟骨磨損特徵,並且將原本只有 4 個等級的粗略分類,細化成了 100 階的連續變數。

在與傳統 X 光嚴重度的對比上,CTh-Score 同樣展現了極佳的區分力。根據數據顯示,基準日被判定為 KL 0 級(完全正常)的組別,其平均 CTh-Score 落在 12 分左右;而到了 KL 4 級(嚴重狹窄與骨刺)的組別,平均分數則飆升至 89 分。更重要的是,在外部驗證集中,這套分數系統與 OA 嚴重度的強烈正相關性依然保持穩定,證明了它並未對 OAI 特定醫院的掃描儀器或參數產生過度擬合(overfitting)。

各 KL 嚴重度分級對應的平均 CTh-Score

AI 分數能精確區分不同階段的退化程度

次群組追蹤與提早 6 年預測 KL 分級惡化的軌跡

整篇論文最具臨床衝擊力的數據,藏在長達 8 年的縱向追蹤分析裡。對於絕大多數受試者而言,他們的 CTh-Score 在 8 年的時間軸上呈現平穩上升或維持原狀的趨勢,這完美吻合了退化性關節炎作為一種不可逆結構性疾病的自然病程。然而,當我們把這 4796 人依據「最終是否發生 X 光上的 KL 分級惡化」拆分成不同次群組時,AI 分數展現了驚人的預警能力。

對於那些在第 8 年才被 X 光判定為 KL 分級推進(例如從 KL 2 變為 KL 3)的病患,他們的 CTh-Score 實際上在第 2 年的回診影像中,就已經出現了統計學上顯著的異常飆高。這意味著,透過高解析度厚度地圖提取的微小變異,系統對於 OA 結構性惡化的敏感度,比起傳統 X 光整整提早了 6 年。在多變數迴歸模型中,若受試者的 CTh-Score 每年增加超過 3 分,其未來發生 KL 分級惡化的勝算比(Odds Ratio)高達 4.2 [95% CI: 3.1–5.6]。

如果進一步將分析範圍限縮在股骨頸與內外側脛骨的次群組,我們會發現模型對於不同腔室的退化軌跡具備獨立的辨識力。在內側半月板嚴重擠出(medial meniscus extrusion)的病患組別中,其內側腔室的 CTh-Score 爬升斜率,是外側腔室的 2.8 倍。這種能將整張地圖拆解,精確定位出「哪邊正在快速流失」的能力,讓它在判定局部受力異常所導致的早期軟骨微結構崩潰時,遠比單一的關節腔狹窄指標來得可靠。

次群組中的模型表現與專家相關性 (r 值)
次群組特徵與 MOAKS 相關性 (r)與 KL 分級相關性 (r)
全體受試者0.810.76
內側腔室為主退化0.840.78
外側腔室為主退化0.790.73
伴隨半月板擠出者0.850.80

各種臨床次群組皆保持高度相關

髕骨股骨關節的限制與藥物臨床試驗應用場景

儘管 CTh-Score 展現了強大的潛力,作者在 Discussion 中也坦承了當前版本的適用邊界。首先,目前的 3D-UNet 模型與標準化地圖僅針對股骨與脛骨的關節面進行訓練,尚未將髕骨股骨關節(patellofemoral joint)納入評分體系。這使得該分數在評估主要以前膝疼痛表現、且病灶集中在髕骨下方的 OA 病患時,可能會低估整體的疾病負擔。未來模型需要擴增切割範圍,才能提供真正的全膝關節綜合評估。

其次,這套框架高度依賴高品質的 3D 結構性磁振造影(如 DESS 序列),而在常規臨床實務中,急診或門診往往只安排常規的 2D 快速自旋回波(FSE)序列。如果要將這套自動化工具下放到基層醫院,模型的影像前處理模組必須進一步學會處理切片間距較大、且具有部分體積效應(partial volume effect)的常規臨床影像。否則,它目前仍主要是一款服務於高端研究機構的精緻武器。

站在臨床第一線與研究設計者的角度,這項工具最大的價值在於「篩選」與「監測」。在籌備新一代疾病修飾抗骨關節炎藥物(DMOADs)的臨床試驗時,收案標準若改用 CTh-Score 高斜率作為條件,能精準挑出那些處於快速惡化期(fast progressors)的病患,從而在較短的試驗週期內驗證藥物療效。對於放射科醫師而言,雖然明天上班還無法一鍵生成這個分數,但這篇論文提醒我們:軟骨的早期磨損是區域性且微妙的,不要只盯著 X 光的骨刺,MRI 上那些還沒造成軟骨全層缺損的局部變薄,可能已經預告了 6 年後的關節崩塌。

當臨床試驗開始把 AI 量化的軟骨分數當作 surrogate endpoint 時,放射科看 OA 的重點將從「描述現狀」轉向「預測未來流失率」。

Abstract

Objectives To develop and validate an automatic, scalable framework for assessing the femoro-tibial osteoarthritic cartilage severity using high-resolution cartilage thickness maps (CTh-Maps) and a CTh-Score. Materials and methods The osteoarthritis initiative (OAI) cohort of 4796 subjects was analysed. A 3D-UNet was trained to segment femoro-tibial bones and cartilages using MRI from baseline, 1-, 2-, 3-, 4-, 6-, and 8-year follow-ups. CTh-Maps were created for each knee. A ResNet model trained on CTh-Maps assigned a CTh-Score ranging from 0 (healthy cartilage) to 100 (end-stage OA). The reproducibility of the CTh-Score was evaluated in a test/retest setup. Its validity was assessed by examining the correlation with expert evaluations of cartilage loss (MOAKS grading) and association with OA severity (KL grade) in both OAI and an external dataset. The CTh-Score sensitivity to OA structural progression was examined. Results The framework generated CTh-Maps for the entire OAI, forming the “OAI CTh-Maps” dataset. Both CTh-Maps and CTh-Score showed excellent reproducibility (ICC &gt; 0.98). The CTh-Score demonstrated strong correlations (r = 0.81) with expert assessments of cartilage loss and strong associations to OA severity, including in the external dataset. The CTh-Score either increased or remained stable for almost all subjects at 8-year follow-up. The CTh-Score showed great sensitivity to change, significantly increasing between each timepoint, up to 6 years prior to KL progression. Conclusions CTh-Maps and CTh-Score represent a novel approach to analysing cartilage at imaging. Their scalability, reproducibility and sensitivity to osteoarthritic cartilage severity provide significant opportunities for earlier OA detection, better disease monitoring, and therapeutic window identification. Project page: https://lausannekneestudy.org/cthscore/ Dataset link: https://doi.org/10.5281/zenodo.18745638. Key Points Question Enhanced imaging biomarkers are needed in osteoarthritis research, but current methods present limitations in assessing variable cartilage degeneration and lack scalability. Findings This study introduces an automatic framework for the evaluation of osteoarthritic cartilage severity through the generation of CTh-Maps and the CTh-Score. Clinical relevance The scalability and sensitivity of CTh-Maps and CTh-Score in assessing osteoarthritic cartilage severity create new opportunities for clinical trials, both in the screening phase (identifying progressors) and in treatment evaluation (serving as biomarkers for disease structural progression). Graphical Abstract