Towards improved decision making of unruptured intracranial aneurysms using automated segmentation from MRA-TOF with iterative pseudo labeling [ARTIFICIAL INTELLIGENCE]

Verschuur, A. S., Zhang, J., Kamphuis, M. J., Tax, C. M. W., van der Schaaf, I. C.

View Original ↗
AI 導讀 academic AI 重要性 4/5

DIVA-seg 結合偽標籤技術,在未破裂腦動脈瘤的外部驗證中達到 0.861 相似度,大幅降低標註成本。

  • 迭代偽標籤技術成功將 518 例無標註資料轉化為有效訓練集,突破手動標註的數量限制。
  • 外部測試集顯示動脈瘤切割 Dice 分數達 0.861,且邊界最大誤差穩定維持在 0.67 毫米。
  • Bland-Altman 分析警告在體積與球形度等 3D 形態學指標上存在比例偏差,需謹慎對待大型病灶。

由 AI 自動圈選的腦動脈瘤與血管,在盲測中已經讓神經放射科醫師無法分辨是機器還是真人畫的,其外部驗證的動脈瘤切割相似度高達 0.861。然而當我們試圖依賴這個完美的 3D 模型來計算體積與球形度時,卻在統計上發現了不可忽視的比例偏差,這意味著依賴演算法決定是否介入治療前,我們仍需謹慎審視邊緣。

未破裂腦動脈瘤追蹤與 3D 形態學量化挑戰

未破裂腦動脈瘤的追蹤一直是神經放射科日常業務中的重頭戲,隨著高解析度影像的普及,偶然發現的微小病灶數量急遽上升。臨床醫師在決定是否進行血管內介入治療或開顱夾閉時,往往需要依賴精確的破裂風險評估。傳統上,我們習慣使用單一維度的最大徑來判斷,但越來越多證據指出,病灶的 3D 形態學特徵,如整體體積、表面積、球形度以及形狀指數,能提供遠比單一直徑更準確的血液動力學風險預測。

在日常排班的高壓環境下,要求放射科醫師在工作站上手動逐個切面圈選動脈瘤的邊界,以建立 3D 網格模型,幾乎是不可能完成的任務。手動標註不僅極度耗時,更面臨巨大的觀察者間與觀察者內變異性。不同主治醫師對於血管頸部(neck)的切分位置、微小不規則凸起(bleb)的認定,往往存在分歧。這不僅導致跨院區資料難以整合,也讓長期追蹤的體積變化數據缺乏穩定性。

為了克服這些痛點,自動化的影像切割工具成為近年來的研發重點。然而,既有的深度學習模型多半受限於標註資料庫的規模,導致其在單一醫院表現優異,一旦跨院區處理不同的掃描儀器或參數設定時,準確率便大幅下降。此外,多數文獻僅停留在演算法架構的創新,缺乏對真實世界異質性資料的廣泛驗證,這讓第一線醫師難以安心將其整合入常規的報告系統中。

本研究團隊深刻體認到,要開發出真正具備臨床實用價值的工具,必須解決高難度標註與泛化能力的矛盾。因此,他們開發了名為 DIVA-seg 的自動化切割系統,試圖透過創新的訓練策略,在無需海量人工標註的前提下,實現對 MRA-TOF(無顯影劑的飛時磁振血管造影) 影像中顱內血管與動脈瘤的精準 3D 建模。這不僅是技術上的突破,更是為未來的自動化風險預測鋪路。

迭代偽標籤設計與 518 例未標註資料的提煉

從研究設計的架構來看,作者採用了 nnU-Net(自動調架構的醫學影像切割框架) 作為核心演算法,並巧妙引入了 pseudo labeling(拿機器預測當假答案去教下一代模型) 的迭代技術。傳統深度學習極度依賴「人類專家畫好邊界」的標準答案(Ground Truth),但神經血管的 3D 標註成本過高。研究團隊的策略是:先用少量的高品質標註資料訓練一個初步模型,然後讓這個模型去預測大量的無標註資料,挑選出預測結果最穩定的部分當作「偽標籤」,最後將這些偽標籤加入訓練集,教導最終版本的模型。

在受試對象與資料集的分配上,本研究使用了三個各自獨立的 MRA-TOF 資料集。第一個是包含完整專家標註的 Dataset 1,共有 71 個案例,其中 57 例作為初始訓練集(Model 1),14 例作為內部測試集。第二個則是龐大的 Dataset 2,包含了 518 例完全沒有人工標註的影像,這正是考驗演算法能否從未標註海洋中淘金的關鍵。第三個則是極為重要的外部驗證集 Dataset 3,包含 82 例來自不同來源且具備專家標註的影像,用來檢驗模型是否會產生過度擬合(overfitting)。

具體的運作流程相當嚴密,研究團隊讓初步訓練好的 Model 1 在 Dataset 2 上進行迭代預測。在多次迭代的過程中,系統會自動評估每個案例切割結果的穩定性。如果一個案例在不同迭代中的預測邊界變動過大,代表模型對該病灶感到「困惑」,這些案例就會被剃除。經過嚴格篩選後,518 例中有 484 例展現出高度穩定的切割表現。

這 484 例帶有機器生成偽標籤的影像,隨後被納入正式的訓練流程中,與原本 Dataset 1 的 57 例專家標註資料合併,共同訓練出最終版本的 Model 2。這種混合真實標註與穩定偽標籤的策略,不僅讓模型看到了數倍於以往的解剖變異(如不同的動脈環走向、大小各異的病灶),也大幅稀釋了早期模型可能產生的偏差。這在資料取得困難的醫學影像領域,是一個極具參考價值的實驗設計範本。

迭代偽標籤設計與資料集規劃
資料集用途案例數 (n)備註
Dataset 1初始訓練與內部測試71 (57 訓練/14 測試)具備專家手動標註
Dataset 2生成偽標籤518篩選出 484 例表現穩定者加入後續訓練
Dataset 3外部驗證82具備專家手動標註以測試泛化能力

利用少量標註資料提煉無標註數據的策略

內外部測試的 Dice 相似度與 0.67 毫米誤差

把焦點拉到研究的主要量化結果,DIVA-seg 在內部與外部測試集皆展現出令人矚目的穩定性。在評估空間重疊率的指標上,模型在內部測試集(14 例)的血管 DSC(評估空間重疊率的 Dice 分數) 達到了 0.925(±0.025),動脈瘤的 DSC 則為 0.880(±0.045)。當面對包含 82 例全新資料的外部驗證集時,血管與動脈瘤的 DSC 依然分別維持在 0.899(±0.028)0.861(±0.114) 的高水準。

值得特別留意的是外部驗證集中動脈瘤的標準差(±0.114)。相較於內部測試集的 ±0.045,這個稍微放大的波動範圍,真實反映了演算法在面對跨院區不同掃描參數或病患族群時,仍難免遇到少數難以完美切割的極端案例。然而,以整體平均值 0.861 來看,這已經達到了臨床可接受的自動化標註門檻,足以作為多數病灶追蹤的可靠基礎。

除了重疊率,衡量邊緣偏離程度的距離指標同樣關鍵。研究結果顯示,無論是在內部測試集還是外部驗證集,其 HD(衡量邊界最大誤差的 95% Hausdorff 距離) 皆為 0.67 毫米。這是一個非常具體且具備臨床意義的數字。在典型的 3T MRA-TOF 掃描中,體素(voxel)的空間解析度通常在 0.5 到 0.8 毫米之間。0.67 毫米的邊界誤差,意味著 AI 畫出的邊緣與人類專家畫出的邊緣,差距往往不到一個體素的大小,幾乎已經達到了物理硬體解析度的極限。

為了進一步確認演算法產出的 3D 形態學量化指標是否可信,團隊進行了一系列嚴謹的比對。在評估 3D 形態學測量值(如體積、表面積)時,自動切割產生的數據與人類專家手動圈選產生的數據,在整體分佈上展現了極高的相似性。這些基於 3D 網格的幾何計算,對於未來的血流動力學模擬至關重要,因為即使是微小的邊界變動,都可能讓流體力學的應力分佈產生劇烈變化。

DIVA-seg 在內外部測試集的 Dice 分數表現

動脈瘤的外部驗證波動較大,但平均仍達 0.861

Bland-Altman 分析下的體積與球形度比例偏差

若細看 Bland-Altman 圖表所揭示的深層細節,這才是整篇論文最值得放射科醫師警惕的段落。雖然整體的空間重疊率與邊界誤差表現優異,但統計分析明確指出,在體積(voxel volume)、表面積、球形度(sphericity)與形狀指數(shape index)這四個關鍵 3D 形態學測量值上,觀察到了顯著的「比例偏差(proportional bias)」。

什麼是比例偏差?在 Bland-Altman 分析中,這意味著「測量誤差的大小,會隨著病灶本身的尺寸而系統性地改變」。換句話說,當動脈瘤體積較小的時候,AI 與人類專家的計算差異可能微乎其微;但當動脈瘤體積非常龐大時,兩者算出來的體積或表面積差異就會隨之放大。這並不是隨機誤差,而是一種帶有方向性的系統性偏移。

從 MRA-TOF 的物理原理來推敲,這個現象其實非常合理且符合臨床直覺。大型未破裂動脈瘤的圓頂(dome)內部,經常存在複雜的慢速血流或渦流(recirculation)。這些非層流的血液在經歷多次射頻脈衝後,會產生飽和效應(saturation effect),導致在 TOF 影像上訊號強度下降,甚至出現類似血栓的無訊號區。人類專家在閱片時,會憑藉解剖學的空間想像力,將這些訊號微弱的邊界自動補齊;但 AI 演算法往往過於忠實於像素本身的灰階值,導致對大型病灶產生低估邊界的情況。

相對應地,球形度與形狀指數的比例偏差,則突顯了演算法在處理病灶表面不規則性時的局限。這兩個指標高度依賴表面積與體積的幾何比例。如果演算法在處理子囊(daughter sac)或微小不規則突起時,切得比人類更為平滑,或者在動脈瘤與載瘤動脈的交界處(頸部)採取了不同的截斷策略,都會直接改變最終的形狀指數。這提醒我們,當病患的破裂風險評估高度依賴這些進階形態學特徵時,完全將權定權交給演算法是存在風險的。

盲測評估無顯著偏好與日常排班的實務考量

探討完客觀的量化數據,作者安排了一場極具說服力的盲測質性評估(blinded qualitative evaluation)。他們將 AI 自動生成的切割結果與人類專家的手動標註結果打亂,交由獨立的評估者進行優劣排序。結果顯示,評估者在多數情況下「沒有明確的偏好(no clear preference)」,也就是說,這些由 DIVA-seg 產出的 3D 輪廓,在視覺與臨床合理性上,已經達到了足以以假亂真的主治醫師水準。

從實務操作的角度來看,這套工具最適用的場景是作為「高通量篩檢與基線模型建立」的輔助系統。在每天面臨堆積如山的健檢 MRA 報告時,這套系統可以在背景自動跑出所有病灶的初步 3D 輪廓與體積數據。如果一個 4 毫米的單純平滑型動脈瘤,你可以非常放心地將其自動測量值寫入報告中;這將省去你手動拉游標測量三個正交軸徑的時間,同時提供更具重現性的體積基準,方便明年回診時進行精準比對。

然而,作者也坦承了系統的適用邊界。目前這套工具僅針對未曾接受過治療的未破裂動脈瘤進行驗證。如果在臨床上遇到已經置放過線圈(coiling)、導流支架(flow diverter)或開顱夾閉過的病灶,金屬植入物產生的磁化率假影(susceptibility artifact)將徹底破壞 TOF 影像的訊號分佈,這套演算法極可能會給出荒謬的切割邊界,絕不可在此類情境下盲目套用。

綜合評估這篇研究的貢獻,DIVA-seg 成功證明了透過巧妙的工程設計,我們不需要無底洞般的標註經費,也能訓練出具備強大泛化能力的 3D 切割模型。但做為影像診斷的把關者,我們必須將 Bland-Altman 圖表傳達的警告銘記在心。機器能代替我們完成 95% 的苦工,但在面對複雜血流動力學與形態學交織的灰色地帶時,人類醫學影像專家的經驗與直覺,仍是守護病患安全的最後防線。

追蹤大動脈瘤時別全信 AI 給出的球形度與體積,手動確認圓頂慢血流區的邊界,才是決定是否介入的關鍵。

Abstract

OBJECTIVE:To enable accurate 3D morphological assessment and support clinical decision making, DIVA-seg: a Deep learning-based method for Intracranial Vessel and Aneurysm segmentation from MRA-TOF using a pseudo labeling approach was developed and validated.METHODS:Three MRA-TOF datasets were used: 1) labeled data for training (n=57) and testing (n=14), 2) unlabeled data for pseudo labels (n=518), and 3) labeled data for external validation (n=82). An nnU-Net (Model 1) was iteratively trained for creating pseudo labels for Dataset 2. Cases with stable segmentation performance across iterations were selected for further training. Stable cases (n=484) were combined with Dataset 1 to train a second nnU-Net (Model 2). Performance testing on Dataset 1 and 3 comprised of Dice similarity coefficients (DSC), 95%-Hausdorff distances, 3D morphological measures, and a blinded qualitative evaluation.RESULTS:DIVA-seg achieved a mean (standard deviation) internal vessel and aneurysm DSC of 0.925 (±0.025) and 0.880 (±0.045), respectively. On the external test set the DSC were 0.899 (±0.028) and 0.861 (±0.114), respectively. Mean Hausdorff distances were 0.67mm for both test sets. Bland-Altman plots showed a high agreement between 3D morphological measures from ground truth and model segmentations; however, a proportional bias was observed for voxel volume, surface area, sphericity and shape index. The qualitative evaluation showed no clear preference for either ground truth or model segmentation.CONCLUSION:The model achieved accurate and reliable segmentation of vessels and aneurysms internally and externally while also showing high agreement between 3D morphological measures from automatic and manual segmentations, indicating its potential clinical utility.SUMMARY SECTION:Accurate intracranial aneurysm assessment is essential for treatment planning and risk stratification. Manual aneurysm segmentation is labor-intensive and subject to substantial inter- and intra-observer variability. Although automated segmentation approaches have been proposed, many suffer from limited accuracy, lack of robustness across datasets, or insufficient validation on heterogeneous, real-world data. As a result, reliable and generalizable tools for aneurysm segmentation and morphological analysis remain an unmet need. DIVA-seg, an nnU-Net-based model, achieved high aneurysm segmentation accuracy (DSC >0.86; HD <0.7mm) and close agreement with expert annotations in clinically relevant 3D morphological measures, demonstrating consistent performance across internal and external datasets. This work demonstrates a robust and generalizable approach for automated intracranial aneurysm segmentation, enabling reliable morphological analysis. The proposed method has the potential to streamline aneurysm monitoring, reduce observer variability, and support future automated tools for risk predictions and clinical decision making.