The Fourth Challenge on Image Super-Resolution ($\times$4) at NTIRE 2026: Benchmark Results and Method Overview

Zheng Chen, Kai Liu, Jingkai Wang, Xianglong Yan, Jianze Li, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

NTIRE 2026 超解析度賽事由 SamsungAICamera 以 33.73 dB 奪冠,兩階段架構與擴散模型成為技術新標竿。

  • 預訓練 Transformer 結合推論期幾何集成,成為提升像素重建保真度的標準配置。
  • 生成式先驗(擴散模型與整流流)正式取代 GAN,成為解決視覺感知與真實感的首選方案。
  • 高達 23 支隊伍突破 30 dB 門檻,免訓練的模型融合策略在算力限制下展現極大優勢。

NTIRE 2026 影像超解析度(x4)挑戰賽共吸引 194 名註冊參賽者,最終由 SamsungAICamera 團隊以破紀錄的 33.73 dB 峰值信噪比(PSNR)奪下雙軌賽道冠軍。本屆賽事標誌著技術典範的轉移,兩階段架構與擴散模型已正式取代傳統單一網路,成為突破視覺感知與像素保真度天花板的標準配備。

NTIRE 2026 超解析度挑戰賽的雙軌賽制與數據標準

本次 NTIRE 2026 挑戰賽建立在經典的四倍(x4)雙三次向下取樣(Bicubic downsampling)設定上,要求參賽者從遺失高頻細節的低解析度影像中,重建出高品質的高解析度畫面。為了客觀反映超解析度技術在「還原真實度」與「人類視覺偏好」上的分歧,主辦單位設立了兩個平行的競賽賽道。第一賽道為重建保真賽道(Restoration Track),嚴格考驗像素級別的還原度,並以 PSNR 作為單一排名依據。

第二賽道則是視覺感知賽道(Perceptual Track),專注於影像紋理的自然度與逼真感。該賽道放棄單一指標,改採綜合感知分數進行評估,涵蓋了 LPIPS、DISTS、CLIP-IQA、MANIQA、MUSIQ 與 NIQE 等六大主流影像品質評估(IQA)指標。這種賽制設計迫使參賽團隊必須在影像失真與視覺感知之間尋找最佳的平衡點。

在訓練數據方面,賽事官方提供了包含 1,000 張 2K 解析度影像的 DIV2K 資料集,以及包含 86,991 張高畫質影像的 LSDIR 資料集。為了確保公平性,DIV2K 的測試集對應高解析度原圖在整個賽程中皆被嚴格保密,且參賽者被允許使用公開的外部資料集進行擴充訓練。

7 大技術演進趨勢:Transformer 稱霸與生成式先驗崛起

31 支提交有效成績的隊伍技術報告中,可以歸納出當前超解析度領域的七個核心發展方向。首先,預訓練 Transformer 模型(如 HAT、SwinIR、HMANet)依然是維持高保真度的絕對主力,多數團隊選擇在此基礎上進行輕量微調,而非從零打造新網路。其次,推論期優化(Inference-time optimization)的影響力大幅上升,許多隊伍利用幾何自集成(Self-ensemble)、重疊切塊推論與動態反射填充等技術,在不改變模型架構的前提下強勢提升了最終分數。

第三個顯著趨勢是兩階段管線(Two-stage pipelines)的普及。為了同時兼顧兩個賽道的目標,頂尖隊伍通常在第一階段使用確定性模型(如 HAT)重建基礎幾何結構,接著在第二階段引入生成式先驗(Generative priors)來補充逼真的紋理。第四,基於擴散模型(Diffusion models)與整流流(Rectified flow)的大型生成網路,正在取代過去的 GAN 模型,成為提供感知細節的關鍵引擎。

第五項進展在於顯式條件注入的應用。現代超解析度模型不再只輸入低解析度影像,而是額外提取退化特徵圖、結構圖或語意引導資訊,透過交叉注意力機制注入網路中。第六,為了強化局部細節,頻率感知損失(Focal frequency supervision)與殘差修正模組被廣泛採用。最後,比起全面重新訓練,參賽者更傾向使用 LoRA(低秩適應微調技術)或局部參數更新等高效適應策略,以節省算力並維持預訓練模型的穩定性。

SamsungAICamera 以 33.73 dB 稱霸雙榜的級聯混合架構

SamsungAICamera 團隊在此次挑戰賽中展現了壓倒性的統治力,不僅在保真賽道以 33.73 dB 奪冠,更在感知賽道拿下 4.7853 的最高分。他們的解決方案是一個極具巧思的「級聯混合超解析度架構」,明確將全域結構重建與局部紋理強化分派給不同的模組處理。該模型首先使用基於 HAT 架構的「全域優化模組(GOM)」捕捉長距離空間依賴性,並建構出目標影像的幾何主幹。

隨後,模型並非直接輸出結果,而是將 GOM 的深層特徵透過「語意注入模組(SIM)」,引導至基於 NAFNet(一種非線性無啟動函數網路)的「細節強化模組(DEM)」。這種設計允許網路利用豐富的語意表示來輔助高頻細節的生成。最終,兩條分支的輸出由動態融合模組(DFM)透過獨立的空間權重圖進行自我適應結合。

在訓練策略上,該團隊動用了高達 200 萬張內部影像搭配 LSDIR 進行了約 360 小時的第一階段預訓練。進入第二階段微調時,他們導入了靜止小波轉換損失(SWT loss)幫助模型跳脫局部最佳解,並使用包含 LPIPS 與 NIQE 在內的多重 IQA 損失函數進行聯合最佳化,最終在 NVIDIA A100 GPU 上練就了這套雙榜奪冠的強悍系統。

I2WM&JNU 與 SR-Strugglers 的免訓練推論期優化策略

相較於消耗龐大算力進行訓練,排名第二與第三的隊伍證明了「免訓練(Training-free)」策略同樣能取得頂級成績。奪得保真賽道亞軍(33.45 dB)的 I2WM&JNU 團隊,直接利用了官方釋出的 Hybrid Network 與 MambaIRv2 預訓練模型。他們對 Hybrid Network 套用測試期局部轉換器(TLC)強化細節,並對 MambaIRv2 實施自集成策略提升預測穩定度,最後僅透過權重組合就產出極具競爭力的結果。

拿下保真賽道季軍(31.98 dB)的 SR-Strugglers 團隊,提出了名為 FusionHero 的雙分支融合架構。該方法平行處理輸入影像:主分支採用 HAT 風格模型提供穩定的基礎重建,副分支則使用 MSHAT 模型並疊加高達 8 倍的幾何測試期資料擴增(包含翻轉與轉置)。

這兩條分支的結果最終以一個固定的全域像素權重進行融合。團隊透過驗證集測試,將副分支的融合權重精準設定在 0.04。這個微小的比例既能確保主分支的保真度不被破壞,又巧妙地利用了副分支的高頻訊號來銳化細節。這顯示在頂尖對決中,如何篩選具備互補特性的現成模型並設計融合邏輯,重要性已不亞於發明全新的神經網路。

VEPG 與 HONORAICamera 導入擴散模型強化視覺感知

在追求極致視覺真實度的第二賽道中,擴散模型展現了難以匹敵的造圖能力。拿下感知賽道亞軍(4.7666)的 VEPG 團隊,建立在一步擴散框架 OMGSR 之上,並將底層替換為擁有 40 億參數的 FLUX.2-klein-base 大模型。為了迎合賽事的評分標準,他們徹底改寫了損失函數,將原本的 DISTS 替換為 LPIPS,並引入 MUSIQ 與 CLIPIQA 等無參考影像品質評估(NR-IQA)的微分損失進行深度約束。

獲得感知季軍(4.4787)的 HONORAICamera 團隊,則採用了基於 Z-Image-Turbo 的生成式先驗框架。他們將擴散步數固定在 121 步,試圖在運算效率與細節生成間取得平衡。為了模擬真實世界的複雜退化,該團隊使用 Real-ESRGAN 管線合成了包含模糊核、高斯雜訊與 JPEG 壓縮偽影的低解析度數據進行訓練。

值得注意的是,HONORAICamera 團隊在報告中指出,雖然加入額外的 CLIP 損失確實能刷高無參考指標的分數,但有時會導致畫面產生不自然的高頻偽影。這凸顯了當前感知超解析度領域面臨的共同挑戰:針對數學指標進行極致最佳化的模型,其輸出的視覺質感未必能完全符合人類主觀的審美標準。

推論期融合與兩階段擴散模型已成為當代超解析度技術的解題公式,如何在客觀保真度與生成式幻覺之間取得平衡,將是未來實務落地的最大考驗。

Abstract

This paper presents the NTIRE 2026 image super-resolution ($\times$4) challenge, one of the associated competitions of the NTIRE 2026 Workshop at CVPR 2026. The challenge aims to reconstruct high-resolution (HR) images from low-resolution (LR) inputs generated through bicubic downsampling with a $\times$4 scaling factor. The objective is to develop effective super-resolution solutions and analyze recent advances in the field. To reflect the evolving objectives of image super-resolution, the challenge includes two tracks: (1) a restoration track, which emphasizes pixel-wise fidelity and ranks submissions based on PSNR; and (2) a perceptual track, which focuses on visual realism and evaluates results using a perceptual score. A total of 194 participants registered for the challenge, with 31 teams submitting valid entries. This report summarizes the challenge design, datasets, evaluation protocol, main results, and methods of participating teams. The challenge provides a unified benchmark and offers insights into current progress and future directions in image super-resolution.