PolarMAE: Efficient Fetal Ultrasound Pre-training via Semantic Screening and Polar-Guided Masking

Meng Lv, Yapeng Li, Hang Su, Juhua Liu, Bo Du

View Original ↗
AI 導讀 technology AI 重要性 4/5

PolarMAE 結合極坐標聲學特性,將 43 萬幀超音波影像預訓練加速 2.41 倍,三大分類檢測任務超越主流基準。

  • PVSS 篩選利用 DCT 與 MedCLIP 過濾相似影像,將 43 萬幀壓縮至 26 萬幀。
  • ABRC 約束鎖定扇形聲學區域,徹底消除黑色背景運算,省下百小時 GPU 算力。
  • PTCM 遮罩結合極坐標先驗與 HOG 特徵,打破隨機還原慣例,大幅提升特徵準確度。

最新的 PolarMAE 框架透過聲學物理特徵引導,成功將超音波影像的預訓練時間從 246.5 GPU 小時削減至 102.3 小時,實現 2.41 倍加速。該技術不僅解決連續掃描帶來的龐大資料冗餘,更在圖像分類、目標檢測與語義分割三大超音波分析任務中,全面超越現有的視覺模型基準。

通用 MIM 模型面臨超音波 3 大物理限制

掩碼影像建模(MIM,Masked Image Modeling,指隨機遮蓋圖片區塊並訓練模型還原的技術)已成為視覺表徵學習中無監督預訓練的主流範式。然而,直接將 MAE(Masked Autoencoder)等通用架構應用於胎兒超音波影像時,往往忽略了此類影像特有的物理與數據屬性,導致下游任務性能受限。

研究團隊指出,通用預訓練模型在超音波領域遭遇三大挑戰。首先是嚴重資料冗餘,臨床超音波通常是連續影片掃描,相鄰幀存在大量視覺與語義上的重複。其次是扇形局部性,超音波影像侷限於特定的扇形視野,周圍充滿無效的黑色背景,隨機遮罩會迫使模型浪費算力去重建這些零資訊區域。第三是極坐標波束成形,受限於聲學波束成形(Beamforming)物理機制,超音波空間資訊呈現非均勻的輻射狀分佈,而標準方法將影像視為均勻的笛卡爾網格,完全錯失了底層的徑向成像模式。

PVSS 篩選:43萬幀連續影像濃縮至 26萬樣本

為了解決連續掃描帶來的高重疊性,研究團隊提出了漸進式視覺-語義篩選(PVSS,Progressive Visual-Semantic Screening)模組。與一般 MAE 無差別處理所有影片幀不同,PVSS 採用雙層過濾機制來大幅提升訓練集的資訊密度,避免模型陷入對重複模式的過度擬合。

在第一層視覺篩選中,模型提取離散餘弦轉換(DCT,將影像轉為頻率的技術)的低頻特徵。這項設計能有效繞過超音波常見的高頻斑點雜訊,精確計算相鄰幀的全局結構相似度,進而剔除視覺上幾乎一模一樣的冗餘幀。

隨後進入語義篩選階段,研究團隊引入了凍結權重的 MedCLIP(醫學影像圖文預訓練模型),將剩餘的影像映射到高階語義空間。透過計算語義嵌入的餘弦相似度,系統能精準識別出因探頭微調而產生視覺差異、但醫學語義完全重複的樣本。透過這套機制,包含 43 萬幀的多中心臨床資料集被有效提煉至 26 萬幀,顯著減少了無效運算。

ABRC 約束:精準消除黑色背景的無效重建運算

傳統的預訓練模型對整張方形影像網格進行均勻的隨機遮罩,這意味著模型必須耗費大量參數與記憶體,試圖「還原」超音波影像中那些毫無解剖資訊的黑色角落。為了修正這個根本性的設計盲區,團隊設計了聲學邊界區域約束(ABRC,Acoustic-Bounded Region Constraint)。

ABRC 的運作機制是在進入預訓練前,自動檢測出有效的扇形聲學成像邊界,並生成對應的感興趣區域(ROI)遮罩。在後續的影像區塊切割與建模時,系統會計算每個區塊在有效扇形區域內的實際覆蓋率。

透過將學習目標嚴格限制在有效的解剖區域內,ABRC 徹底排除了對無效黑暗背景的梯度更新。這項改動不僅加速了模型收斂,更確保所有的運算資源都能集中於具備實際診斷價值的胎兒組織特徵上,讓學習過程更加專注。

PTCM 協同遮罩:結合極坐標與 HOG 重塑學習

即使將運算範圍限制在扇形區域內,超音波影像內的資訊分佈依然高度不均勻。為了順應聲學波束成形的非均勻輻射特性,研究進一步提出了極坐標-紋理協同遮罩(PTCM,Polar-Texture Collaborative Masking),以聯合機率分佈取代隨機遮罩,決定可見區塊的選擇與重建目標。

具體而言,PTCM 首先針對每個有效區塊,計算其在扇形區域內的歸一化深度(徑向位置)以及偏離中心線的程度(角向偏移),以此賦予符合輻射分佈特性的極坐標幾何權重。這個幾何先驗能精準對應超音波探頭在特定深度與角度上的最佳成像解析度。

同時,該模組引入了方向梯度直方圖(HOG,用於捕捉影像局部邊緣與紋理強度的特徵)來評估微觀的紋理細節。將宏觀的極坐標幾何先驗與微觀的 HOG 紋理反應融合後,PTCM 會主動引導模型優先捕捉潛在的徑向成像模式,並強迫模型學習那些擁有複雜邊界與高資訊密度的關鍵組織結構。

耗時縮減 144 小時:三大超音波任務超越基準

藉由 PVSS 與 ABRC 的雙重算力瘦身,PolarMAE 在運算效率上取得了顯著的突破。在實驗室環境採用 4 張 NVIDIA RTX 4090 顯卡進行測試時,基準模型 MAE 耗費了 246.5 GPU 小時才完成預訓練。在導入 PVSS 模組後,時間縮短至 142.0 小時;進一步疊加 ABRC 約束後,最終僅需 102.3 GPU 小時,整體加速達 2.41 倍

在保有極高訓練效率的同時,PolarMAE 的特徵表徵能力依然強悍。在涵蓋影像分類(SFP 基準)、目標檢測(FIS 基準)以及語義分割(PUBSEG 基準)的跨粒度任務測試中,PolarMAE 皆擊敗了 LocalMIM、SelectiveMAE 以及專為醫療聯邦學習設計的 UltraFedFM 等模型。

消融實驗也證實了演算法設計的必要性。數據顯示,採用 HOG 結合極坐標先驗的遮罩策略,在各項下游任務中的表現,遠優於傳統的純隨機遮罩或單純結合高斯分佈的策略,徹底展現了將聲學物理屬性融入深度學習架構的巨大潛力。

打破自然影像與醫學影像的空間先驗差異,PolarMAE 證明了融合物理特徵才是解鎖超音波基礎模型的關鍵。

Abstract

Intelligent fetal ultrasound (US) interpretation is crucial for prenatal diagnosis, but high annotation costs and operator-induced variance make unsupervised pre-training a highly promising paradigm. However, existing pre-training methods largely ignore US-specific characteristics -- severe data redundancy, fan-shaped locality, and polar coordinate beamforming -- limiting their effectiveness in downstream tasks. To address this, we propose PolarMAE, a novel and efficient pre-training framework tailored for US images. Specifically, to mitigate continuous scanning redundancy, we introduce a Progressive Visual-Semantic Screening (PVSS) that adaptively extracts high-value samples, significantly boosting pre-training efficiency. Furthermore, we design an Acoustic-Bounded Region Constraint (ABRC) to accommodate US locality, forcing the model to focus strictly on valid acoustic regions rather than invalid dark backgrounds. Finally, leveraging the beamforming prior and local details, we propose a Polar-Texture Collaborative Masking (PTCM), enabling the model to capture underlying radial imaging patterns and critical tissue structures. Extensive experiments across diverse datasets and downstream interpretation tasks demonstrate that our method achieves state-of-the-art performance with strong pre-training scalability and efficiency.