Frequency-Aware Flow Matching for High-Quality Image Generation
FreqFlow 分離高低頻特徵,以 1.38 的 FID 刷新流匹配生成極限。
- 傳統流匹配架構均勻注入噪聲,導致早期低頻與晚期高頻生成失衡。
- FreqFlow 採雙分支架構,將結構性低頻與紋理高頻拆分並自適應融合。
- FreqFlow-H 在 ImageNet-256 繳出 1.38 FID,全面超越 DiT 與 SiT 架構。
約翰霍普金斯大學與字節跳動研發的 FreqFlow 模型,在 ImageNet-256 圖像生成測試中以 10.8 億參數創下 1.38 的 FID 紀錄。該模型打破流匹配技術均勻注入噪聲的限制,將低頻結構與高頻細節拆解,徹底超越主流 DiT 與 SiT 架構,開創高保真影像生成的全新路徑。
流匹配架構在頻譜分佈的結構缺陷
當前圖像生成領域正經歷架構的快速迭代,流匹配(Flow matching)模型藉由學習數據與高斯分佈之間的連續時間軌跡,展現了比傳統擴散模型更穩定的訓練動態與運算效率。這項技術的基礎在於建立決定性的向量場,平滑地將噪聲引導向真實圖像。然而,無論是在像素層次還是潛在表示(latent representations)空間,傳統架構皆採取全域均勻注入噪聲的策略。這種做法忽視了影像本質上存在不同頻段的資訊差異,導致模型在反向復原的過程中,各頻率成分的重建進度出現嚴重脫節。
從預訓練的 SiT(Scalable Interpolant Transformers)模型數據中可以發現,系統在生成早期的時間步(timestep)主要還原影像整體的形狀與色彩分佈。這些被歸類為低頻(low-frequency)的結構資訊通常能迅速成型。相對地,包含紋理與銳利邊緣的高頻(high-frequency)細節,往往被推遲到生成程序的最後階段才緩慢浮現。由於缺乏分配運算資源的明確機制,這類生成結果的低頻誤差極低,高頻特徵卻出現顯著的失真與平滑化。這道未被妥善處理的頻域鴻溝,直接限制了流匹配網路輸出精緻紋理的能力。
分離高低頻特徵的 FreqFlow 雙分支網路
針對上述的頻譜干擾現象,研發團隊構思出包含頻率(Frequency)與空間(Spatial)兩個專責分支的協同運算骨架。在每一次時間步的輸入端,這套名為 FreqFlow 的系統會先執行離散傅立葉變換(DFT),將夾帶噪聲的潛在空間數據轉換為頻域矩陣。接著,模型套用具有可控截止頻率的高通與低通高斯濾波器,乾淨俐落將訊號切分為二。高通濾波器負責提取需要被強化的邊緣與細節,低通濾波器則負責濾除雜訊、保留大面積的幾何形狀。
擷取完頻域數據後,系統會透過逆變換(IDFT)將兩股分流送回空間表示,交由一組基於 ViT(視覺 Transformer)的統一網路進行深度特徵提取。這種選擇的原因在於,ViT 具備優異的長距離依賴建模能力,非常適合解析跨區域的頻率關聯。另一方面,承接最終合成任務的空間分支則改採 ConvNeXt 架構,因為卷積網路的局部感受野對高頻紋理的捕捉具備先天優勢。頻率分支輸出的整合特徵,將透過最基礎的逐元素相加(element-wise addition)直接注入空間分支,確保全局結構不變形的同時,大幅拉升局部的解析度。
模擬視覺感知的時間依賴自適應權重
解析人類肉眼辨識物理環境的慣性,通常是先看懂畫面輪廓,接著才聚焦於細部材質的刻畫。FreqFlow 順應了這道認知法則,導入名為時間依賴自適應權重(time-dependent adaptive weighting)的調節機制。這套演算法透過多層感知機(MLP)讀取當下的時間步參數,藉由 Sigmoid 函數輸出動態的介面權重。在由純高斯噪聲出發的生成初期(時間步接近 1000),系統會賦予低頻分支壓倒性的權重,要求模型全速確立畫面的整體佈局。
隨著生成軌跡往終點(時間步 0)推進,自適應權重會逐步翻轉,降低對低頻特徵的依賴,轉而放大高頻分支的貢獻值以銳化紋理。有趣的是,在反向生成的尾聲,FreqFlow 會再度微調低頻權重,用以確保極致細化的過程中不會造成結構崩塌。為了貫徹這套動態策略,團隊在常規的空間域損失(Spatial Loss)之外,增設了雙領域監督(Dual-domain Supervision)。新加入的頻率域損失函數會直接對快速傅立葉變換(FFT)的運算結果進行誤差比對,讓高頻特徵與低頻特徵在各自專屬的監管軌道上接受優化,有效消滅高頻信號的模糊殘影。
ImageNet-256 測試以 1.38 FID 超越 DiT
導入這套繁複的頻段管理手段後,FreqFlow 在最具公信力的 ImageNet-256 條件圖像生成基準測試中,繳出了極具說服力的硬指標。參數規模約 5.07 億 的 FreqFlow-L 版本達成了 1.70 的 FID(Fréchet Inception Distance)表現,不僅直接擊敗了規模更大的 DiT-XL/2(2.11 FID),也勝過了同為流匹配架構的 SiT-XL/2(1.96 FID)。當運算規模進一步擴展至 10.8 億 參數的 FreqFlow-H 時,其 FID 更下探至破紀錄的 1.38,創下該級距生成模型的新高點。
這項優勢在更高解析度的測試中同樣成立。在 ImageNet-512 像素的環境下,FreqFlow-L 的 FID 來到 2.02,比起 DiT-XL/2 足足拉開了 1.02 的領先幅度,且 Inception Score 高達 285.3。根據開發團隊的量化統計,對比原生的 SiT 模型,FreqFlow 對於高頻成分的預測誤差出現了懸殊的降幅,證明該網路確實將分配到的算力,精準投注在過去經常被流失的邊緣與表面細節上,同時全面勝過既有的 GAN 與自迴歸(Autoregressive)演算法。
像素空間訓練與 ImageNet-64 微型任務擴展
驗證大型架構潛力之餘,這套演算法在嚴苛硬體限制與低解析度的極端測試下也展示了極強的適應力。在 ImageNet-64 的任務中,系統不依賴穩定擴散(Stable Diffusion)的 VAE(變分自編碼器)去轉換潛在特徵,而是直接在像素層次進行暴力訓練。僅有 1.34 億 參數的 FreqFlow-B 獲得了 1.92 的 FID 數據,以不到一半的運算量級,打敗了參數達 2.84 億的 DiMR 網路。
退一步拔除標籤提示的輔助,該架構依然能維持高度的內部一致性。在關閉無分類器引導(Classifier-free Guidance, CFG)的前提下,FreqFlow-H 維持了 2.45 的 FID 評分,把同一標準下的 DiT-XL 遠遠甩在後頭(FID 9.62),印證了高品質的圖像合成並非單靠外部條件暴力修正,而是源自頻譜層面精準的特徵拆解。消融實驗同樣證實,捨棄花俏的交叉注意力(cross attention)機制,改用最純粹的逐元素相加來融合空間與頻率特徵,反而能最大化保存低通濾波與高通濾波的運算成效,用最精簡的數學操作換取最高級的保真度。
將頻譜感知的特徵分離技術植入流匹配架構,證實順應人類由粗到細的視覺認知規律,才是推升生成式 AI 圖像保真度的關鍵路徑。