Rate-Distortion Theory for Deductive Sources under Closure Fidelity

Jianfeng Xu

View Original ↗
AI 導讀 technology AI 重要性 4/5

將邏輯推論引入資訊理論,透過閉包保真度將知識庫的零失真傳輸率壓縮至 P_A H(π_A),突破傳統香農極限。

  • 傳統通訊要求字元級比對,新模型引入「閉包保真度」,允許接收端依賴邏輯推論重建知識庫。
  • 零失真率精確解由知識庫的「不可取代核心」決定,冗餘推論結果不再消耗任何傳輸頻寬。
  • 當解碼端被限制只能進行 δ 步推論時,傳輸極限將呈現精確的「率—延遲—失真」三維折衷表面。

在傳統香農理論中,零錯誤通訊意味著必須消耗等同於資訊熵 H(P_O) 的傳輸率。上海交通大學最新研究指出,若將傳輸對象視為具備邏輯推論能力的知識庫,允許接收端自行推論補齊資訊,零失真傳輸率能大幅壓縮至 P_A H(π_A)。這項突破將邏輯冗餘轉化為實質的頻寬節省,挑戰了僅依賴字元比對的壓縮極限。

超越符號級比對:演繹來源模型與知識庫傳輸

經典的 Rate-Distortion Theory(率失真理論) 長期以來致力於探討在特定的保真度標準下,表示一個隨機資料源所需的最低描述率。在傳統框架中,資料源的字母表通常被視為扁平的獨立符號集合,且失真度是直接計算來源與重建符號之間的差異。然而,在現代的通訊情境中,資料源往往不是扁平的字元,而是配備了共享證明系統的有限知識庫(Knowledge Base)

在這種情境下,強制要求符號級的精確複製顯得過於嚴苛。如果通訊的接收端能夠從不同的儲存表示法中,透過邏輯推論得出相同的演繹結果,那麼該通訊任務在實質上就已經完成。基於這個核心觀察,研究人員提出了一種全新的通訊理論模型,稱為演繹來源(Deductive Source)模型。

該模型鎖定一個有限的資料來源集合 $S_O$,並為其配置固定的證明系統與對應的閉包運算子 $\text{Cn}(\cdot)$。在這個架構下,通訊的隨機變數不再是毫無關聯的單一字元,而是在同一個演繹環境中產生的陳述句、更新報告或語義 Token。這種設計將過去側重特定架構的 Semantic Communication(語義通訊)研究,正式提升為一個具備嚴謹數學基礎的資訊理論物件。

閉包保真度機制:冗餘推論結果的零失真成本

為了量化上述知識庫模型的傳輸品質,研究引入了超越傳統字元層級的評估標準——閉包保真度(Closure Fidelity)。在傳統的 Hamming Distortion(漢明失真)標準下,任何一個傳輸錯誤的符號都會產生失真成本;但在閉包保真度的規範下,只要接收端重建的知識庫能夠推導出相同的邏輯後果,替換或省略部分陳述句的成本即為零。

具體而言,閉包保真度採用了 Jaccard Similarity(傑卡德相似度) 的概念,將單純的字元集合比較,升級為兩個「演繹閉包(Deductive Closures)」之間的交集與聯集比例。當傳輸端與接收端的知識庫閉包完全相同時,相似度為 1,代表達到零閉包失真。

這種保真度機制的引入,直接改變了資料冗餘在通訊理論中的地位。知識庫中的陳述句可依據推論關係被劃分:一部分是不可取代的前提,另一部分則是一旦掌握前提就能重新推導出來的儲存結果。根據閉包失真理論,這些「冗餘狀態」在面對任何有效的重建集合時,其產生的失真值皆為零,這正是演繹冗餘得以轉化為傳輸率節省的底層物理機制。

零失真率精確解:不可取代核心的壓縮數學極限

要精確計算出這套系統的零失真率,必須先將知識庫 $S_O$ 進行結構化拆解。透過確定的刪除程序,系統會掃描所有元素,凡是能被其他元素推論出來的陳述句都會被剔除。最終留下的集合被稱為不可取代核心(Irredundant Core,記為 $A$),而那些被剔除的部分則構成冗餘部分(Redundant Part,記為 $J$)

在嚴格的不重疊零失真重建集合假設(Assumption 3.1)下,本篇論文證明了閉包保真度下的最低零失真率為 $R_{\mathrm{sem}}(0) = P_A \, H(\pi_A)$。其中,$P_A$ 代表該核心的資料源質量分佈,而 $H(\pi_A)$ 則是條件限制在該核心上的資訊熵。這項公式在數學上證實,決定有效零失真傳輸率的關鍵僅在於知識庫的核心,而非完整的儲存來源。

若以均勻分佈的資料源為例,傳統漢明失真下的傳輸率極限為 $H(P_O)$。但在演繹來源模型下,擁有 $k$ 個核心元素的均勻分佈資料源,其零失真率將直線下降至 $\frac{k}{|S_O|} \log k$。這不僅在數值上顯著低於傳統香農極限,也正式將 Slepian-Wolf 與 Wyner-Ziv 等附帶解碼端外部輔助資訊的壓縮理論,擴展至「內部共享推論結構」的新領域。

完整率失真函數:冗餘狀態對傳輸資源的隱形化

零失真率的突破僅是第一步,該研究進一步將推論結構的影響力擴展至完整的率失真函數(Rate-Distortion Function)。當重建字母表被限制在來源知識庫的演繹閉包 $\text{Cn}(S_O)$ 內時,研究證明了整條率失真曲線可以完全拆解,只剩下由「不可取代核心」所貢獻的數值。

在數學形式上,任意失真水平 $D \geq 0$ 下的演繹率失真函數,等於核心傳輸率乘上 $P_A$ 的縮放比例。這意味著一個極具顛覆性的現象:冗餘狀態 $J$ 在整個通訊過程中,對傳輸頻寬與失真計算同時呈現「完全隱形」的狀態。

這項結論解答了長久以來關於語義壓縮的核心疑問。即使在允許一定程度失真($D > 0$)的傳輸場景中,非經典的正失真幾何結構依然高度集中於核心命題上。這使得原本龐大且難以計算的全域知識庫率失真問題,被成功降維成一個有限字母表的核心子問題,從而可以直接套用標準的數值評估方法進行最佳化。

限制解碼端運算:推論步驟 δ 觸發的率延遲折衷

上述理論皆建立在解碼端具備「無限制推論能力」的假設上,但真實世界的硬體設備運算力是有限的。為此,研究團隊導入了有限推論預算的概念。當解碼端最多只能執行 $\delta$ 步邏輯推論時,保真度標準便會區分出「最終可推導」與「在 $\delta$ 步內可推導」的差異。

在有限步驟的約束下,原本的演繹閉包被限縮為運算子 $T_{\mathsf{PS}}^{\delta}$ 的輸出,進而定義出新的「$\delta$-約束閉包失真」。此時,通訊系統面對的有效資料源不再是原本的絕對核心 $A$,而是擴張為 $\delta$-不可取代核心($\delta$-irredundant core)。論文推導出此情境下的固定深度零失真率精確解為 $R_{\mathrm{sem}}(0,\delta) = P_\delta \, H(\pi_\delta)$。

在加入核心與順序無關的基礎集合(Essential Set)穩健性假設後,這個帶有推論步數 $\delta$ 的公式,完美建構出一個連續的三維表面:當 $\delta = 0$ 時,模型退化回經典的字元級壓縮;當 $\delta \to \infty$ 時,模型則趨向無限制的演繹壓縮。這種精確的率—延遲—失真(Rate-Delay-Distortion)折衷特徵,徹底量化了運算能力與傳輸頻寬之間的轉換匯率。

將邏輯推論能力直接內建於通訊保真度評估中,不僅突破了傳統字元壓縮的頻寬天花板,更為未來分散式知識庫同步與運算頻寬折衷奠定了嚴謹的數學基礎。

補充數據視覺化

傳統字元壓縮與演繹來源壓縮的理論極限差異
比較維度傳統通訊理論 (Hamming 失真)演繹來源模型 (閉包保真度)
失真評估標準單一字元必須完全相同推論後的知識庫閉包相同即可
冗餘資訊處理視為獨立資訊消耗傳輸頻寬無成本並從頻寬消耗中完全隱形
均勻分佈零失真率H(P_O)(k/|S_O|) log k

Abstract

We study lossy compression of a finite statement source generated in a fixed deductive environment. The source symbols are statements in a knowledge base endowed with a proof system, and reconstruction fidelity is measured by preservation of deductive closure rather than by symbolwise equality. This induces, once the proof system and canonical order are fixed, a decomposition of the source into an irredundant core and redundant stored consequences. Under a natural disjointness condition on zero-distortion reconstruction sets, we show that the minimum zero-distortion rate equals the source mass of the core times the entropy of the source conditioned on that core. For reconstruction alphabets contained in the deductive closure of the source knowledge base, we further prove that the full rate-distortion function depends only on the core, so redundant states are invisible to both rate and distortion. When the decoder is limited to a bounded number of inference steps, we obtain an exact fixed depth rate-delay-distortion characterization. Under an additional order-robustness assumption identifying the chosen core with the order-free essential set, this characterization interpolates between classical symbolwise compression and unconstrained deductive compression. These results formulate deductive compression as a structured source coding problem and quantify how shared inference structure changes the fundamental limits of communication.