From Zero to Detail: A Progressive Spectral Decoupling Paradigm for UHD Image Restoration with New Benchmark
ERR 框架透過頻譜解耦分三階段修復影像,同時釋出 82,126 張 UHD 測試影像庫。
- ERR 框架利用離散餘弦轉換,將影像修復分為零至高頻三階段。
- 導入 KAN 網路與鋸齒排序,精準還原全解析度下的高頻細微紋理。
- 過濾平坦與模糊瑕疵,團隊釋出 82,126 張超高畫質影像基準。
當前超高畫質(UHD)影像修復技術經常在運算成本與細節保留之間妥協,傳統的降採樣模式極易流失關鍵資訊。近期,研究團隊證實了非線性激勵函數才是注入高頻細節的真正推手。基於此,南京大學等機構設計出漸進式頻譜解耦框架 ERR,並釋出包含 82,126 張高品質影像的超大規模資料集 LSUHDIR,不僅徹底改變了從零頻到高頻的修復邏輯,更為業界建立了影像還原的新基準。
突破降採樣侷限,利用離散餘弦轉換解析頻率特徵
隨著超高畫質成像設備的普及,UHD 影像在低光源、雨雪或雜訊干擾下的修復需求日益增加。然而,現有基於卷積神經網路(CNN)或 Transformer 的模型多針對一般解析度設計,面對像素密度極高的 UHD 影像時,往往面臨龐大的運算力瓶頸。過去如 LLFormer 等模型受限於設備記憶體,無法在邊緣裝置上進行全解析度推論;而部分模型雖採用了 8 倍降採樣來降低運算量,但這種常規模式不可避免地會導致影像的細微結構與關鍵資訊流失。
為了在效能與品質之間取得平衡,研究團隊改變了在空間域處理影像的思路,轉向頻域尋求解答。團隊運用離散餘弦轉換(DCT,一種將影像從空間域轉換到頻域的數學技術)對劣質影像進行分析,並進行了一項關鍵測試:將劣質影像與真實標準影像在頻譜上的 (0,0) 位置進行交換。這項被稱為「零頻分量」的數值代表了影像的直流資訊,主導著畫面的全局亮度與平均色彩。
實驗結果顯示,一旦換上完美的零頻分量,即便其他高頻部分仍充滿雜訊,影像在視覺上的整體色調與峰值信噪比都會獲得顯著提升。相對地,若缺少正確的零頻資訊,即使後續完美修復了所有非零頻率,畫面依然無法呈現令人滿意的結果。這項觀察促使團隊得出一個核心結論:在影像修復的初期階段,必須優先著重於全局映射的學習,再逐步推進到低頻的結構填充與高頻的細節注入。
ERR 框架三大子網路:零頻增強至高頻細化
基於上述的頻譜解讀,研究團隊提出了名為 ERR 的漸進式框架,將極具挑戰性的 UHD 影像修復任務拆解為三個高度協作的子網路。第一個階段是「零頻增強器」(ZFE),專注於在低解析度空間中學習全局映射。由於零頻特徵不涉及高階語意或局部紋理,改良版的 IERR 模型甚至將降採樣比例擴大至 16 倍,大幅提升了運算效率。並透過自適應平均池化(AAP)結合全局先驗投影器,有效地從劣質影像中提煉出全局資訊。
進入第二階段後,「低頻修復器」(LFR)接手處理 4 倍降採樣的中解析度影像。此階段的目標是重建影像的粗略輪廓與主要內容結構。為了在減少運算開銷的同時強化對長距離依賴關係的建模,LFR 採用了基於狀態空間模型的 Mamba 區塊。在此基礎上,研究團隊整合了局部增強模組,利用大核心卷積操作擴大感受野,讓網路能精準捕捉並還原畫面中的低頻連續性內容。
第三階段則是處理全解析度特徵的「高頻細化器」(HFR)。由於 UHD 影像的細節密度極高,全尺寸的運算極其消耗資源。為此,團隊設計了一套頻率視窗分割機制,將高低頻資訊在離散餘弦轉換頻譜中進行分塊處理。這個設計不僅降低了記憶體佔用,也強制模型將注意力高度集中在最難以還原的高頻細節上,確保最終輸出的影像具備極高的視覺保真度。
引入 KAN 網路與鋸齒狀排序以強化高頻細節
在高頻細化階段,團隊進一步從深度學習的解釋性研究中獲得啟發。過去的研究指出,線性系統本質上傾向學習低頻特徵,而非線性運算子才是真正為模型注入高頻資訊的核心動力。團隊特別在知名的 UHDFormer 模型上進行了剝離測試,發現一旦移除非線性激勵函數,模型的高頻表現就會發生斷崖式的衰退。這項發現促使團隊捨棄傳統架構,轉而採用近期受矚目的 KAN 網路。
KAN 網路以其強大的非線性表達能力著稱,但若直接套用於 UHD 的全解析度空間,會引發無法承受的記憶體負載。為了解決這個瓶頸,團隊首創了頻率視窗 KAN 架構。而在進階版的 IERR 模型中,團隊更導入了類似於 JPEG 壓縮標準中的「鋸齒狀重新排序」技術。這種排序方式能將頻譜矩陣中的係數由低頻至高頻依序排列,使後續的視窗分割能更具針對性地處理同質性頻率區塊。
透過這套結合頻譜排序與可學習非線性函數的獨特設計,模型成功在極高的像素基準上,還原出包含樹葉紋理與人臉毛孔等高複雜度細節。這不僅解決了長久以來大型網路在全解析度下難以優化的通病,也證明了選擇正確的數學運算子遠比單純堆疊網路深度來得更加有效。
嚴選 82,126 張照片建立 LSUHDIR 影像庫
除了架構層面的突破,UHD 影像修復領域長期以來面臨缺乏大型、多樣性基準資料集的窘境。早期常用的資料集多以風景圖為主,規模過小且場景單一;而由手機拍攝建立的資料庫則受限於感光元件素質。為此,團隊耗時從開放授權圖庫 Unsplash 與 Pexels 中獲取了海量影像,並執行了極其嚴苛的雙階段品質把關。
第一階段為底層像素篩選。團隊利用拉普拉斯演算法排除過度模糊或雜訊過高的照片,同時使用 Sobel 邊緣檢測過濾掉過於平坦、缺乏細節的影像。為了確保訓練模型能獲得足夠的紋理與語意監督,第二階段導入了高階品質評估。研究人員利用灰階共生矩陣量化影像的方向性與對比度,保留前 50% 細節最豐富的樣本;接著利用香農熵計算像素分佈的複雜度,再次篩選出語意最豐富的一半。
這兩大條件的交集,最終催生出包含 82,126 張極高品質 UHD 影像的 LSUHDIR 資料集。團隊在此資料庫的基礎上,額外建立了針對 UHD 去噪與去除 JPEG 壓縮偽影的兩大基準測試。實驗證明,IERR 模型不僅在這些新基準上表現優異,更在現有的低光源增強、去雨、去霧等測試中展現頂尖實力,為電腦視覺領域奠定了全新基礎。
擺脫一味追求深度的空間域運算,將 UHD 修復解構為漸進式的頻譜填補工程,並以 KAN 網路重塑高頻細節,將成為兼顧運算效率與極致畫質的新解答。