LP$^{2}$DH: A Locality-Preserving Pixel-Difference Hashing Framework for Dynamic Texture Recognition

Ruxin Ding, Jianfeng Ren, Heng Yu, Jiawei Li, Xudong Jiang

View Original ↗
AI 導讀 technology AI 重要性 4/5

LP²DH 壓縮高維特徵為 40 位元,在 UCLA 測試創下 99.80% 準確率。

  • 導入多目標雜湊機制,將高維動態特徵壓縮至 40 位元二進位碼。
  • 在流形空間最佳化投影矩陣,確保二值化過程保留特徵局部結構。
  • 在三大基準測試奪冠,憑藉極低運算複雜度超越多數深度學習模型。

動態紋理辨識技術在處理空間與時間特徵時,長期面臨著嚴重的維度暴增問題。當傳統演算法嘗試提取 5×5×5 的局部像素空間時,往往會產生高達 124 維的龐大數據量。為突破此運算瓶頸,諾丁漢大學與南洋理工大學的研究團隊提出 LP²DH 框架,成功將高維像素差異壓縮為僅 40 位元的二進位編碼,並在 UCLA 資料集創下 99.80% 的破紀錄準確率,全面超越了眾多依賴龐大算力的深度學習模型。

傳統 STLBP 描述子的 2^P³-1 維度災難挑戰

動態紋理(Dynamic Texture)指的是影像序列中隨著時間與空間產生重複性變化的模式,這項技術已經被廣泛應用於影片異常偵測、火災警報系統、活體臉部防偽辨識,甚至動態場景的理解之中。相比於靜態紋理,動態紋理的外觀會隨著時間軸持續變化,因此如何設計出具備高描述力的特徵表徵,成為該領域的核心技術門檻。在眾多特徵提取演算法裡,時空局部二值模式(Spatiotemporal Local Binary Pattern, STLBP)因為運算簡便且對光照變化具備強大的抵抗力,長期備受學界青睞。

然而,將傳統平面的局部二值模式擴展到三維時空時,開發者立刻面臨了嚴苛的技術挑戰。首要難題是極端的「高維度」問題:當系統定義一個 $P \times P \times P$ 的立體局部範圍時,其特徵維度會以 2^(P³-1) 的指數級別恐怖成長。為了解決運算瓶頸,過去的折衷作法(例如 LBP-TOP)通常將三維特徵拆解到三個獨立的正交平面上分別提取,但這種降維方式直接犧牲了平面之間的時空交錯關聯性。

次要挑戰在於「次佳的編碼機制」。傳統的 LBP 演算法依賴絕對的數值閾值進行二值化,這種作法僅保留了像素之間的符號(正或負),卻完全丟棄了可能含有豐富上下文特徵的「幅度」資訊。最後則是「結構資訊的流失」,將連續的像素差異數值強制映射到零與一的二進位空間中,極易破壞原始數據中重要的相對關係與微觀結構,進而大幅削減特徵在分類任務上的鑑別力。

六大主流動態紋理辨識技術的優勢與侷限

回顧動態紋理辨識技術的發展脈絡,業界大略衍生出了六大主流分支。第一類是光流法(Optical-flow),這類演算法專注於追蹤物件在相鄰影格間的移動軌跡,儘管能精準捕捉獨特的運動模式,但運算成本極其高昂,且在畫面複雜或遮擋頻繁的場景下極易產生估計誤差。第二類是基於模型的方法,研究人員通常採用線性動態系統(LDS)或隱馬可夫模型(HMM)來描繪時間軸上的變化。這類技術提供了數學建模基礎,卻往往受限於線性假設或高斯雜訊前提,難以應對真實世界中非線性的複雜動態。

第三類則是導入碎形幾何概念的幾何分析法,透過計算時空數據的不規則性與自相似性,來抵抗視角變換與光照干擾,不過只要影片缺乏強烈的碎形特徵,辨識率就會下滑。第四類時空濾波法(如 MBSIF-TOP)藉由設計特定的高階梯度濾波器提取局部統計特徵,但受限於濾波器的空間固定性,往往無法捕捉長期且複雜的動態相依性。

第五類局部特徵法便是前述的 STLBP 變體,這條技術路線一直試圖在「特徵鑑別力」與「資料緊湊度」之間尋求平衡。最後則是主宰當今電腦視覺的深度學習與表徵學習法。這類模型雖然能自動提取極高維度的時空特徵,但伴隨而來的是龐大的算力消耗、在小型資料集上的過度擬合風險,以及運作邏輯缺乏可解釋性的黑盒子難題。

整合四大最佳化目標的像素差異雜湊編碼

為了一次性克服高維度、編碼缺陷與結構流失三大難關,研究團隊提出了 LP²DH 框架,核心在於一種全新設計的像素差異向量(PDV)雜湊機制。此機制不同於以往局部改良的做法,而是透過建立多目標最佳化的聯合數學公式,系統性地重塑了二值化特徵的產生過程。在該框架中,團隊針對雜湊函數設定了四個不可妥協的優化條件。首要條件是最小化量化損失,確保每一組高維連續的像素差異向量,在轉換成二進位編碼時映射誤差能降至最低,維持轉換前後的保真度。

接著是針對資訊乘載量的優化,演算法被要求最大化雜湊碼的資訊熵。在機制設計上,團隊透過約束方程式促使二進位碼的 0 與 1 呈現均勻分布,防止編碼向單一數值傾斜而導致儲存容量浪費。第三個目標則是最大化雜湊碼的變異數,藉由拉大不同編碼向量之間的變異程度,LP²DH 能夠主動消除表徵中的冗餘特徵,讓編碼更具區別度。

第四個目標則是整個演算法最關鍵的創新:保留局部資料結構。團隊借鏡了流形學習中的局部線性嵌入(Locally Linear Embedding, LLE)技術,在原始的 PDV 高維空間中構建一個鄰居關聯矩陣。在進行雜湊映射的過程中,演算法會強制規定:如果在高維空間中互為鄰居的兩個向量,它們產生的二進位雜湊碼也必須保持幾何相近。這確保了動態紋理的內在空間結構不會因為二值化而被粗暴抹除。

史蒂費爾流形上的梯度下降與雙階段壓縮策略

在整合四項優化目標後,團隊遇到了一個嚴峻的數學挑戰:用來進行空間投影的雜湊矩陣必須滿足嚴格的正交性(Orthogonality)限制。在這種條件下,傳統運作於歐幾里得空間的梯度下降法完全失效。為此,團隊將這個最佳化問題,轉換到史蒂費爾流形(Stiefel manifold)上求解。演算法採用交替最佳化策略:先固定投影矩陣更新二進位碼,隨後在流形空間中計算黎曼梯度,並結合高效率的矩陣反轉公式進行投影矩陣的疊代。

當雜湊函數收斂後,LP²DH 會進入被稱為雙階段壓縮的下半場。第一階段的雜湊投影雖然已將 124 維的像素差異特徵壓縮至僅 M = 40 位元的二進位向量,但 $2^{40}$ 的可能組合在直方圖統計上仍然過於臃腫。因此,第二階段導入了字典學習(Dictionary Learning),透過 K-means 分群演算法,將這些雜湊碼群聚並提煉出 C = 3000 個最具代表性的編碼詞彙。

為了增強對不同動態尺度的適應力,系統會同時從 P=3(26 個相鄰點)與 P=5(124 個相鄰點)兩種不同尺寸的局部空間提取特徵。這些多尺度的編碼詞彙會被轉換為直方圖,並利用主成分分析(PCA)進行最後一步降維,最終輸出一組極度緊湊卻保留了完整微觀細節的特徵表徵。

三大動態紋理基準測試創下 99.80% 準確率

進入實證環節,團隊將 LP²DH 部署於三個國際公認的動態紋理基準資料集進行測試。在包含 50 種場景的 UCLA 資料集中,LP²DH 達成了高達 99.80% 的破紀錄準確率,成功擠下基於深度學習架構的 DT-GoogleNet(98.93%)。而在涵蓋 3600 支影片片段的 DynTex++ 資料集中,系統以 98.52% 的成績擊退了採用 3D 高階高斯梯度濾波的 HoGF3D 模型(97.63%)。

在專注於開放場景辨識的 YUPENN 資料集中,面對水波震盪、樹葉搖曳等非剛性動態場景,該框架交出了 96.19% 的優異表現,再次超越了導入自監督學習機制的 STS 模型(95.00%)。值得一提的是,LP²DH 在推論階段完全沒有使用複雜的神經網路,僅依賴最基礎的最近鄰分類器配合餘弦距離就達成了上述分類成果。

運算複雜度分析顯示,演算法的耗時環節主要落在建構鄰居關聯矩陣的 K-D Tree 搜尋,整體複雜度控制在 $O(N \log N)$ 級別,具備優秀的規模化潛力。這套無需龐大算力的架構,徹底解決了困擾學界多年的時空特徵維度災難。

透過流形空間最佳化保留數據局部幾何結構,LP²DH 證明了精細的數學降維策略在特定視覺任務中,仍能擊退資源密集的深度學習模型。

Abstract

Spatiotemporal Local Binary Pattern (STLBP) is a widely used dynamic texture descriptor, but it suffers from extremely high dimensionality. To tackle this, STLBP features are often extracted on three orthogonal planes, which sacrifice inter-plane correlation. In this work, we propose a Locality-Preserving Pixel-Difference Hashing (LP$^{2}$DH) framework that jointly encodes pixel differences in the full spatiotemporal neighbourhood. LP$^{2}$DH transforms Pixel-Difference Vectors (PDVs) into compact binary codes with maximal discriminative power. Furthermore, we incorporate a locality-preserving embedding to maintain the PDVs' local structure before and after hashing. Then, a curvilinear search strategy is utilized to jointly optimize the hashing matrix and binary codes via gradient descent on the Stiefel manifold. After hashing, dictionary learning is applied to encode the binary vectors into codewords, and the resulting histogram is utilized as the final feature representation. The proposed LP$^{2}$DH achieves state-of-the-art performance on three major dynamic texture recognition benchmarks: 99.80% against DT-GoogleNet's 98.93% on UCLA, 98.52% against HoGF$^{3D}$'s 97.63% on DynTex++, and 96.19% compared to STS's 95.00% on YUPENN. The source code is available at: https://github.com/drx770/LP2DH.