A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff

Zijian Liang, Kai Niu, Changshuo Wang, Jin Xu, Ping Zhang

View Original ↗
AI 導讀 technology AI 重要性 4/5

北郵最新論文證實:轉向同義集重建,感知分佈散度即可從數學推導自然浮現。

  • RDP 框架的分佈散度長期被視為假設,缺乏數學推導支持。
  • 改以同義集作為重建目標,分佈散度即可從數學推導自然浮現。
  • 透過同義變分下界解耦語義與句法,捨棄細節資訊以最大化壓縮率。

傳統壓縮演算法在低位元率常面臨信號模糊問題,促成了率-失真-感知(RDP)框架的廣泛應用。北京郵電大學團隊證明,若將壓縮目標從「還原信號本身」轉為「落入特定同義集」,感知品質必備的分佈散度即可純數學推導自然浮現,無須仰賴外部假設。

解析 RDP 理論缺口:將分佈散度轉為數學推導

在自然信號壓縮領域,傳統上由夏農(Shannon)的率失真(Rate-Distortion, RD)理論主導,也就是在編碼位元率與重建失真之間取得平衡。這套理論支撐了包含 AACJPEG-2000H.264/AVC 在內的各種跨模態標準。然而,單純將失真降到最低,在低位元率下往往會產生嚴重模糊或偽影等視覺上無法令人滿意的結果。為了解決這項問題,學界提出了 RDP 權衡框架。

該框架引入了機率分佈層面的散度,用以量化感知的品質,促成了學習型影像、音訊與影片壓縮技術的突破,近期更結合了擴散模型來提升低位元率下的感知重建表現。儘管實務上取得巨大成功,但 RDP 框架中的「分佈散度」通常僅被視為一種建模假設或外部約束,而非從理論底層推導而來的必然結果。

在古典率失真框架中,重建的核心目標被定義為「對原始信號本身的估計」。在這樣的預設下,無論如何計算,都不會自然產生分佈層級的約束,使得實務上依賴的感知測量指標與有損壓縮的基本假設之間,存在一道明顯的理論缺口。

跳脫還原原始信號框架:以同義集重塑感知壓縮目標

為了解決這項理論上的斷層,研究團隊決定重新定義重建目標。在自然信號的資料空間中,通常存在許多與原始信號「語義一致」但細節不同的樣本。以一張街景圖為例,只要重建結果能準確保留行人數量、車輛位置等關鍵資訊,即使紋理或局部結構不完全等同原始影像,在一般觀察者眼中仍具有相同的語義。

基於這個概念,研究團隊引入了同義集(Synset)的視角。在這個框架中,所有滿足合理同義標準(例如感知相似度)的信號樣本,都會被歸類到同一個同義集裡。這意味著編解碼器的設計目標迎來了本質上的改變。

對感知編碼器而言,它只需要提取該同義集中所有樣本「共享」的資訊即可,藉此最大化壓縮效率。相對應地,感知解碼器不再需要盡可能精準地恢復原始樣本本身,它唯一的任務,是產出一個落入該同義集內、且感官上有效的任意樣本。一旦接受了這樣的條件放寬,分佈散度項就能順理成章地從理論推導中浮現出來。

語義與句法的解耦:建構同義變分推斷編碼架構

由於語義資訊本身是無形的,必須透過語法(Syntactic)形式來表現,研究團隊設計了一套對應的同義來源編碼架構。在這個架構中,輸入的信號會先被映射到潛在空間(latent space)中。即使是屬於同一個同義集的不同樣本,在潛在空間裡也會對應到截然不同的潛在表示。

為了精確捕捉語義,編碼器會將輸出的潛在表示拆解成兩部分:捕捉核心共用資訊的同義表示 $\bar{\boldsymbol{y}}s$,以及代表特定偏差的細節表示 $\bar{\boldsymbol{y}}\epsilon$。依照設計原則,系統僅會針對含有核心語義的 $\bar{\boldsymbol{y}}_s$ 進行熵編碼並輸出位元流,藉此將傳輸負載降到最低。

那些不影響整體感知語義的細節表示,則會直接在編碼端被捨棄。當接收端解碼出 $\bar{\boldsymbol{y}}_s$ 後,解碼器會利用同義表示與細節表示之間的相關性,預測並採樣出一個隨機的細節表示,將兩者合併並反向映射回資料空間,最終生成最佳的重建樣本。

以同義變分下界 SVLBO 逼近後驗分佈最佳解

一套完美的同義編解碼器,必須確保任何採樣生成的重建樣本,都能精準落入理想的同義集內。然而在實務情境中,要明確劃分這些同義集的邊界並窮舉所有樣本是不可能的任務。為解決這個最佳化難題,研究團隊開發了同義變分推斷(SVI)分析框架。

團隊並未直接套用傳統變分推斷中常見的 ELBO(證據下界)(近似真實分佈的函數),而是推導出了專屬的「同義變分下界(SVLBO)」。透過最小化部分語義 KL 散度(Kullback-Leibler divergence)(衡量兩個機率分佈差異的指標),這套框架能有效地逼近真實的語義後驗分佈。

在這個 SVI 框架內,研究進一步確立了同義-感知一致性原則。這項原則證明了,在語義資訊層面進行最佳化識別,在理論上完全等同於在語法層面進行感知最佳化。研究團隊最終得出的結論顯示,負責優化這套編解碼器的損失函數,在數學形式上精準對應了同義率-失真-感知權衡,從根本上釐清了它與現有理論的相容性。

捨棄完美還原原始信號的執念,轉向同義集重建,正是填補感知壓縮理論缺口的終極解答。

Abstract

The fundamental limit of natural signal compression has traditionally been characterized by classical rate-distortion (RD) theory through the tradeoff between coding rate and reconstruction distortion, while the rate-distortion-perception (RDP) framework introduces a divergence-based measure of perceptual quality as a modeling principle rather than a theoretically-derived principle, leaving its theoretical origin unclear. In this paper, motivated by a synonymity-based semantic information perspective, we reformulate perceptual reconstruction as recovering any admissible sample within an ideal synonymous set (synset) associated with the source, rather than the source sample itself, and correspondingly establish a synonymous source coding architecture. On this basis, we develop a synonymous variational inference (SVI) analysis framework with a synonymous variational lower bound (SVLBO) for tractable analysis of synset-oriented compression. Within this framework, we establish a synonymity-perception consistency principle, showing that optimal identification of semantic information is theoretically consistent with perceptual optimization. Based on its derivation result, we prove a synonymous RDP tradeoff for the proposed synonymous source coding. These analytical results show that the distributional divergence term arises naturally from the synset-based reconstruction objective, clarify its compatibility with existing RDP formulations and classical RD theory, and suggest the potential advantages of synonymous source coding.