Diffusion Autoencoder for Unsupervised Artifact Restoration in Handheld Fundus Images

Mathumetha Palani, Kavya Puthumana, Ayantika Das, Ganapathy Krishnamurthi

View Original ↗
AI 導讀 technology AI 重要性 3/5

擴散自編碼器成功修復手持眼底影像偽影,將診斷準確率大幅提升至 81.17%。

  • 傳統模型依賴成對數據,難以修復手持眼底影像的閃光與模糊偽影。
  • 擴散自編碼器結合上下文編碼,有效於去噪過程保留影像核心語意。
  • 模型在無成對數據下成功修復偽影,將診斷準確率提升至 81.17%。

發表於 ISBI 2025 的最新研究提出非監督式擴散自編碼器,專門修復手持式眼底攝影常見的閃光與動態模糊。該模型在無需成對訓練資料的情況下,成功還原影像細節,將未見過資料集的診斷準確率大幅提升至 81.17%

手持式眼底攝影面臨的非結構化偽影挑戰

眼底攝影技術在近年來逐漸朝向便攜化發展,手持式設備的出現讓眼科診斷與疾病篩檢變得更加普及、高效且具備成本效益。這類設備讓偏鄉醫療或移動式診所能夠快速獲取病患的視網膜影像,大幅擴展了疾病預防的覆蓋範圍。然而,相較於固定在醫院診間的大型設備,手持式儀器在操作穩定度與光源控制上存在先天限制。

這導致設備拍攝出來的影像經常伴隨著嚴重的退化現象。常見的干擾包括閃光燈在眼球表面造成的強烈反射、環境光與設備設定引發的曝光不均勻,以及操作者手部微小晃動或病患眼球移動所導致的動態模糊。這些醫學影像中不屬於原有解剖結構的干擾影像被稱為「偽影」(Artifacts)。

此類偽影最大的問題在於其具備「非結構化」特性。這意味著每一次閃光的位置、模糊的方向與曝光的深淺都毫無規律可言。對於後續負責自動化分析與疾病判讀的電腦視覺演算法而言,這些隨機分布的雜訊會嚴重掩蓋視網膜血管、微血管瘤或視神經盤等關鍵特徵,最終導致診斷失準或完全無法分析。

傳統生成模型依賴成對數據的技術瓶頸

為了解決影像退化問題,深度學習領域經常導入各類生成模型來進行影像修復。無論是生成對抗網路還是早期的卷積神經網路,這些架構在一般的影像除噪與去模糊任務上已經展現出卓越的效能。然而,將這些成熟技術直接搬到手持式眼底影像的修復上,卻會遇到難以克服的資料集瓶頸。

絕大多數效能優異的生成模型都高度依賴「成對監督」(Paired supervision:訓練時需同一場景的清晰與模糊影像配對)機制。這要求研究人員必須提供模型極大量「帶有偽影的影像」與「同一個角度、完全無偽影的完美影像」作為對照組,讓模型學習兩者之間的數學映射關係。

但在真實世界的眼科拍攝情境中,要取得這種成對數據幾乎是不可能完成的任務。我們無法要求病患的眼球在拍攝完一張模糊的手持影像後,在微秒級別的時間內保持絕對靜止,再用桌上型設備補拍一張完美對齊的清晰影像。此外,部分依賴預先定義偽影結構的模型,也因為無法窮舉手持設備中千變萬化的反光與模糊模式,導致在面對未知的退化情況時適應性極差。

結合上下文編碼器的非監督式擴散自編碼器

面對缺乏成對數據的困境,研究團隊提出了一套名為擴散自編碼器(Diffusion Autoencoder)的全新非監督式架構。這項技術的核心在於徹底捨棄對「成對瑕疵影像」的依賴,轉而讓模型學會理解什麼是「健康且結構完整的眼底影像」。

擴散模型原本的運作原理是透過不斷加入雜訊,再訓練神經網路逐步去除雜訊來生成影像。但在醫療影像領域,單純的擴散模型可能會在去噪過程中過度發揮「創意」,產生出原本不存在的解剖結構,這在醫學診斷上是致命的缺陷。

為了克服這個難題,研究人員在去噪過程中巧妙地整合了「上下文編碼器」(Context encoder:提取並保留影像核心語意特徵的網路結構)。這個編碼器的任務是從輸入的受損影像中,提取出最關鍵的語義特徵,並將這些特徵轉化為具備指導意義的潛在表示。當擴散模型在進行去噪與影像還原時,上下文編碼器會持續提供這些語義特徵作為框架,確保模型只會修復反光與模糊的區域,而不會改變或抹除病患原有的血管紋理與病徵。

僅利用高品質桌上型設備影像進行模型訓練

這套架構最關鍵的突破在於其訓練策略。由於模型不需要學習「如何把壞影像變好影像的特定公式」,研究團隊在訓練階段完全沒有使用任何一張帶有偽影的手持式設備影像。

訓練過程中,模型被餵入的全部都是由大型、穩定的高品質桌上型眼底攝影機所拍攝的完美影像。在這個階段,擴散自編碼器的唯一任務就是深度學習人類眼底結構的純粹分佈模式,包含血管的走向、視神經盤的邊界以及黃斑部的光影漸層。模型在此建立了一個屬於高品質眼底影像的標準資料庫。

到了「推論」(Inference:模型訓練完後對新數據進行預測的過程)階段,當一張充滿閃光與模糊的手持拍攝影像被輸入時,模型會利用上下文編碼器抓取影像中的解剖特徵,然後對照其在訓練階段學到的「高品質影像標準」,以非監督的方式自動推算出那些被雜訊遮蔽的區域應該長什麼樣子,進而完成高精度的影像還原。

在多種偽影條件下達成 81.17% 診斷準確率

為了驗證這套非監督式擴散自編碼器的實際效能,研究團隊進行了嚴密的定量與定性評估。定性評估方面,經過修復的影像在視覺上顯著消除了強烈的反光斑塊,並且將原本因手震而糊成一團的微細血管重新銳利化,還原效果遠勝過傳統依賴線性濾波或基礎生成模型的演算法。

更重要的是在定量評估上的突破。修復影像的終極目標是為了讓機器或人類能夠進行更準確的疾病判讀。團隊將這些由手持設備拍攝、經模型修復後的影像輸入到下游的自動化診斷系統中。測試結果顯示,在一個模型從未見過的全新資料集上,面對包含多種複雜偽影條件的挑戰,整體疾病診斷準確率大幅攀升到了 81.17%

這個數據強烈證明了結合上下文編碼器的擴散模型,不僅僅是讓影像在視覺上變得「好看」,它確實精準保留了具有臨床價值的語義細節。這種在零成對數據條件下展現出的強大泛化能力,為未來便攜式醫療設備的軟體升級指出了明確的技術路徑。

透過擴散自編碼器提取核心語義,AI 影像修復已擺脫成對資料的束縛,為便攜式設備的畫質缺陷提供了無縫的演算法補償方案。

Abstract

The advent of handheld fundus imaging devices has made ophthalmologic diagnosis and disease screening more accessible, efficient, and cost-effective. However, images captured from these setups often suffer from artifacts such as flash reflections, exposure variations, and motion-induced blur, which degrade image quality and hinder downstream analysis. While generative models have been effective in image restoration, most depend on paired supervision or predefined artifact structures, making them less adaptable to unstructured degradations commonly observed in handheld fundus images. To address this, we propose an unsupervised diffusion autoencoder that integrates a context encoder with the denoising process to learn semantically meaningful representations for artifact restoration. The model is trained only on high-quality table-top fundus images and infers to restore artifact-affected handheld acquisitions. We validate the restorations through quantitative and qualitative evaluations, and have shown that diagnostic accuracy increases to 81.17% on an unseen dataset and multiple artifact conditions