SNRAware: Improved Deep Learning MRI Denoising with Signal-to-Noise Ratio Unit Training and G-Factor Map Augmentation.

Xue Hui, Hooper Sarah M, Pierce Iain, Davies Rhodri H, Stairs John, et al.

View Original ↗
AI 導讀 technology MR 重要性 4/5

全複數運算架構搭配空間雜訊基準圖,有效保留相位並提升 0.55T 低磁場 MRI 訊噪比。

  • 非盲 DnCNN 結合 g-factor 圖,能精準解決平行造影引起的局部雜訊放大問題。
  • 複數卷積網路在模擬驗證中展現極低的相位 ABSD,完勝傳統實數通道分割法。
  • 推論速度極快,在 CPU 處理單張 320x320 切面僅需 1472 毫秒,具極高臨床部署可行性。

許多人在處理低磁場 MRI 影像時,習慣把實部與虛部當作兩個獨立通道來訓練去噪模型,但這樣做往往會破壞原始訊號的相位資訊。這項研究指出,全面改用複數值運算並導入空間特異性的雜訊基準圖後,0.55T 低磁場影像的白質與灰質訊噪比能顯著提升,且在 CPU 上處理單張 320x320 切面的推論時間僅需 1472 毫秒,不但保留了相位資訊,更能精準壓制平行造影帶來的中心區塊雜訊放大效應。

突破傳統運算的複數卷積與空間雜訊圖設計

近年來,隨著硬體技術與造影策略的進步,造價較低且易於安裝的低磁場 MRI 再次受到臨床關注,這對於資源匱乏地區的醫療基礎建設具有重大意義。然而,低磁場系統(例如 0.55T 或 0.3T)受限於較低的波茲曼極化效應,天生就帶有較低的訊噪比(SNR)。根據先前的參考文獻,0.55T 機台的 SNR 僅約為 1.5T 機台的 70%。為了提升影像品質,最直接的做法是增加訊號平均次數(NA),但這不可避免地會大幅拉長患者的掃描時間。因此,開發高效的去噪演算法成為推廣低磁場 MRI 臨床應用的先決條件。

傳統的去噪技術,例如 NLM(基於非局部區塊相似性的去噪演算法)與 BM3D(利用區塊相似性進行三維濾波去噪),大多只針對影像的強度(Magnitude)進行運算,完全忽略了 MRI 原始資料中極具價值的相位(Phase)資訊。即便後來引入了深度學習,多數模型也只是將實部與虛部分拆成兩個類似 RGB 的實數通道,這種做法限制了神經網路提取複數特徵的能力。為了解決這個困境,作者團隊開發了「非盲 DnCNN」,這是一種純粹基於 Complex-valued CNN(從卷積到啟動函數全採複數運算)的深度網路,專門為保留 MRI 相位資訊而設計。

在模型架構方面,整個網路包含 20 個複數卷積區塊。每個區塊內部依序執行複數卷積、徑向批次常態化(Radial BN,一種能在縮放強度的同時保持相位的常態化技術),以及分別針對實部與虛部啟動的複數 ReLU 函數。為了訓練這個網路,研究團隊採用了 fastMRI 開放資料庫中 2000 組 1.5T 與 3T 的 T2 權重腦部影像作為 Ground truth。他們在模擬過程中加入了 AWGN(實虛部變異數相等的附加性白雜訊),並將標準差設定在 0 到 0.1 之間的均勻分佈。不同於一般的「盲去噪」,此模型在輸入端額外串接了一張與影像等大的「雜訊等級圖」,讓網路在處理過程中能隨時感知當前的雜訊強度。

模型訓練與跨系統驗證資料集設計
階段資料來源與磁場強度影像對比度與處理方式
模型訓練fastMRI (1.5T / 3T)2000 組 T2 腦部影像,加入 0~0.1 標準差模擬雜訊
模擬測試fastMRI 額外 200 組測試 T1, FLAIR 與 PD 膝關節驗證泛化能力
平行造影模擬fastMRI 原始 K 空間16 線圈 4 倍退採樣,產生空間變異 g-factor 雜訊
低磁場實測M4Raw (0.3T) / 本地 (0.55T)多對比度與不同訊號平均次數 (NA=1~5) 真實推論

涵蓋高磁場模擬到低磁場真實資料的測試階層

Figure 2 與 Figure 3 指出的相位保留與結構失真差異

為了驗證模型的實際效能,作者首先在額外隨機挑選的 200 組 fastMRI T2 測試集上進行了模擬雜訊測試。當比較的基準包含 NLM、BM3D、實數 DnCNN 以及未加入雜訊圖的盲 DnCNN 時,純量數據展現了明顯的優劣。Figure 2 的量化結果顯示,當模擬雜訊的標準差大於 0.04 時,所有基於卷積神經網路(CNN)的方法在標準化均方根誤差(NRMSE)、峰值訊噪比(PSNR)以及結構相似性指標(SSIM)上,皆全面超越了傳統的 NLM 與 BM3D。

若進一步細看 Figure 2 的視覺呈現,可以發現 NLM 與 BM3D 處理後的影像往往會伴隨明顯的視覺模糊,且邊緣細節流失;相反地,DnCNN 與非盲 DnCNN 的輸出結果不僅有效移除了背景的沙礫感,更保留了腦室邊緣與灰白質交界的銳利度。這證實了利用殘差學習機制能更有效地捕捉影像中的高頻細節,避免過度平滑的問題。

然而,這項研究最具突破性的進展在於 Figure 3 針對相位影像的分析。為了精確計算相位絕對誤差(ABSD),作者利用 Otsu 閾值法與凸包運算(Convex hull)生成了腦部遮罩,以排除背景隨機相位對數據造成的干擾。量化數據清楚表明,實數 DnCNN 雖然在強度影像上的表現不差,但其重建後的相位圖像卻出現了顯著的偏差。反觀 DnCNN 與非盲 DnCNN 這兩款複數網路模型,其輸出的相位影像幾乎與 Ground truth 完全貼合。這證明了保持運算圖(Computational graph)中複數代數的完整性,是避免相位資訊在卷積與加權過程中崩解的唯一途徑。

Figure 4 展示 G-factor 圖對抗平行造影雜訊的效應

在現代 MRI 的臨床實務中,GRAPPA 或 SENSE(利用線圈靈敏度縮短掃描的平行造影)幾乎是標準配備。但平行造影帶來的副作用是,雜訊在影像上的分佈不再是均勻的;受到線圈幾何結構的限制,影像某些區域(通常是中心或深部組織)的雜訊會被顯著放大。這個放大的倍率被稱為 g-factor map(線圈幾何結構造成的空間雜訊放大地圖)。傳統的盲去噪模型在面對這種空間變異性極大的雜訊時,往往會顯得束手無策,不是在周邊區域過度模糊,就是無法壓制中心區域的強烈雜訊。

從 Figure 4 的實驗設計可以看出作者的巧思。他們將 16 個通道的原始 K 空間資料進行 4 倍的退採樣(Undersampling),並利用 SENSE 重建出帶有強烈空間變異雜訊的影像。接著,他們摒棄了傳統使用均一數值建構雜訊等級圖的做法,改用 SENSE 重建過程中自然產生的 g-factor map 進行加權,將其作為「非盲 DnCNN」的輸入特徵。

對比結果非常驚人。如果只看 Figure 4 中下方那一排,未使用雜訊等級圖的盲 DnCNN,以及輸入均勻雜訊圖的非盲 DnCNN,在腦部中心(即 g-factor 最大值所在的區域)都留下了明顯的雜訊斑塊。但當網路讀取了經過 g-factor map 縮放的空間雜訊分佈圖後,非盲 DnCNN 成功地壓制了中心區域的高強度雜訊,同時保持了周圍皮質結構的清晰度。在臨床工作流程中,線圈靈敏度圖與 g-factor map 都在掃描準備階段就能無償取得,不需增加額外的掃描時間,這讓此演算法具備極高的實用價值。

Table 1 運算成本與跨系統的低磁場真實表現

評估去噪演算法的另一個關鍵維度是運算效率與跨域泛化能力。在 Table 1 的運算成本分析中,處理單張 320x320 切面的時間成本被詳實記錄。在全 CPU 環境下,老牌的 BM3D 需要耗費 2562 毫秒,而「非盲 DnCNN」包含雜訊標準差估計的時間在內,僅需 1472 毫秒;若導入 GPU 加速,推論時間更是大幅縮減至 154 毫秒。這意味著在幾秒鐘之內就能完成一整個大腦體積的去噪處理,完全可以無縫整合進現有的放射科閱片工作站中。

除了模擬資料,研究團隊也將模型推廣到完全未見過的對比度與解剖部位(T1 權重、FLAIR 以及膝關節的 PD 權重影像),Figure 5 證明了模型學到的是「辨識並移除雜訊」的通用法則,而不是死背了 T2 腦部的解剖結構。更重要的是 Figure 6 與 Figure 8 中針對真實低磁場機台的驗證。在 M4Raw 開放資料庫(0.3T 系統)以及本地端改裝的 0.55T 系統上,模型展現了強大的實戰能力。

為了進行無參考影像的量化評估,研究人員手動框選了感興趣區域(ROI),並計算了白質與灰質的訊噪比(計算時導入了 0.66 的瑞利分佈校正因子以修正強度影像的背景雜訊特性)。統計結果顯示,盲 DnCNN 與非盲 DnCNN 在白質與灰質的 SNR 提升上,顯著優於其他傳統方法(p < 0.05)。Figure 9 則展示了不同訊號平均次數(NA=1 到 5)下的去噪極限;當基礎影像包含極高雜訊(NA=1)時,模型能給出具備基本診斷價值的平滑結果;而當 NA 提升到 3 或 5 時,那些原本被掩蓋在細微雜訊下的微小神經結構,透過模型處理後變得異常銳利且清晰可見。

各演算法 CPU 推論時間比較

處理單張 320x320 切面所需毫秒數,顯示 DnCNN 具備運算效率優勢

L1 損失函數的權衡與影像重建端去噪的未來發展

在 Discussion 階段,作者坦承了模型設計過程中的幾項關鍵取捨與現階段的限制。首先是關於模糊效應(Blurring effect)的控制。深度學習去噪模型最常被放射科醫師詬病的就是「過度塗抹」導致病灶邊緣消失。為了減輕這個問題,團隊刻意放棄了常規的 L2 損失函數,改採 L1 損失函數來進行優化,因為先前的文獻已經證實 L2 傾向於產出過度平滑的結果。導入雜訊基準圖的初衷,也是希望能透過調整預估的雜訊標準差,在「雜訊壓制」與「細節保留」之間取得動態平衡。然而,作者也承認,單靠目前基於 Scikit-image 小波轉換的估計法,有時還是難以完美拿捏這個平衡點,未來或許需要導入注意力機制(Attention mechanisms)來進行更精細的特徵加權。

其次是醫療影像 AI 難以迴避的過度擬合(Overfitting)風險。由於訓練資料庫規模有限,網路有時會去記憶特定的腦部解剖結構或是病理對比,進而在遇到罕見病灶時產生幻覺(Hallucination),捏造出不存在的結構。為了降低此風險,團隊大量採用了隨機翻轉與裁切等資料擴增手段,並嚴密監控驗證集的損失收斂狀況。從後續的跨模態與跨機台測試結果來看,泛化能力已具備一定水準,但要在臨床正式上線,仍需針對不同身體部位與造影參數的低磁場影像進行更大規模的確效。

最後,作者點出了一個更具前瞻性的發展方向:將去噪流程推前到影像重建的源頭。當前的做法仍然侷限於「後處理」框架,亦即等 SENSE 演算法把 K 空間資料轉換為影像後,才切入進行去噪。未來若能將這套複數卷積網路直接展開並鑲嵌於疊代重建演算法的資料一致性(Data consistency)步驟中,便能更徹底地運用原始 K 空間的複雜相位調變特性,這將是進一步榨出低磁場 MRI 硬體極限的終極解方。

處理 0.55T 低磁場影像時,若軟體不具備處理相位與空間變異的 g-factor map 整合能力,平行造影中心的腦部結構必將面臨嚴重的訊號流失與細節模糊。

Abstract

Purpose To develop and evaluate a deep learning-based MRI denoising method using quantitative noise distribution information obtained during image reconstruction to improve model performance and generalization. Materials and Methods This retrospective study included a training set of 2 885 236 images from 96 605 cardiac cine series acquired with 3-T MRI scanners from January 2018 to December 2020. Of these data, 95% were used for training, and 5% were used for validation. The hold-out test set included 3000 cine series, acquired in the same period. Fourteen model architectures were evaluated by instantiating each of the two backbone types with seven transformer and convolution block types. The proposed SNRAware training scheme leveraged MRI reconstruction knowledge to enhance denoising by simulating diverse synthetic datasets and providing quantitative noise distribution information. Internal testing measured performance using peak signal-to-noise ratio and structural similarity index measure, whereas external tests conducted with 1.5-T real-time cardiac cine, first-pass cardiac perfusion, brain, and spine MRI assessed generalization across various sequences, contrast agents, anatomies, and field strengths. Results SNRAware improved performance on internal tests conducted on a hold-out dataset of 3000 cine series. Models trained without reconstruction knowledge achieved the worst performance metrics. Improvement was architecture agnostic for both convolution and transformer models. However, transformer models outperformed their convolutional counterparts. Additionally, three-dimensional input tensors showed improved performance over two-dimensional images. The best-performing model from the internal testing generalized well to external samples, delivering 6.5 and 2.9 times contrast-to-noise ratio improvement for real-time cine and perfusion imaging, respectively. The model trained using only cardiac cine data generalized well to three-dimensional T1-weighted magnetization-prepared rapid gradient-echo brain and T2-weighted turbo spin-echo spine MRI acquisitions. Conclusion The SNRAware training scheme leveraged data obtained during the image reconstruction process for deep learning-based MRI denoising training, resulting in improved performance and good generalization.