High-Speed Full-Color HDR Imaging via Unwrapping Modulo-Encoded Spike Streams

Chu Zhou, Siqi Yang, Kailong Zhang, Heng Guo, Zhaofei Yu, et al.

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

全新模數編碼系統結合曝光解耦與免迭代演算法,在達成 1000 FPS 全彩 HDR 攝影的同時,將資料傳輸頻寬暴減 70%。

  • 首創曝光解耦架構,將硬體感測拆分為表示與查詢階段,徹底打破影格率與低光進光量互斥的物理限制。
  • 結合擴散模型先驗與 LAR 物理約束,開發出免迭代解包演算法,達成精準且無幻覺的 HDR 重建,單幀處理僅 0.27 秒。
  • 透過像素級模數編碼重構脈衝相機,在維持 1000 FPS 的前提下,成功將頻寬需求從 20 Gbps 壓縮至 6 Gbps。

傳統高速脈衝相機(Spike Camera)為捕捉極限動態範圍,往往需要高達 20 Gbps 的驚人傳輸頻寬,這使得高解析度連續拍攝在硬體上難以規模化。來自北京大學與日本國立情報學研究所的研究團隊,近期提出一套全新的模數編碼(Modulo-Encoded)HDR 系統,在維持 1000 FPS 全彩捕捉能力的同時,成功將資料吞吐量大幅縮減 70%6 Gbps。這項技術不僅解決了多重曝光帶來的殘影問題,更透過底層運算邏輯的重構,為高速動態場景的影像重建開闢了全新路徑。

傳統 HDR 攝影瓶頸與 Modulo 感測器的底層機制

現實環境的光影變化極端,單一場景的動態範圍往往跨越多個數量級。常規的數位相機在面對此類高反差場景時,亮部容易過曝飽和,暗部則充滿雜訊。為了解決這個問題,業界最普遍的做法是「多重曝光融合」,也就是連續拍攝不同曝光時間的低動態範圍(LDR)影像後進行合成。然而,這種多重拍攝策略在面對相機晃動或動態物件時極為脆弱,極易產生難以消除的殘影與鬼影。

另一種解法是單張 LDR 影像的演算法重建,這完全避開了動態殘影的問題。不過,單憑一張已在亮部遺失物理資訊的影像來「幻覺」出細節,本質上是一個嚴峻的逆向工程挑戰,嚴重限制了重建的逼真度與泛化能力。為了從硬體層面突破上述限制,非傳統感測器應運而生,其中模數感測器(Modulo Sensor)提供了一種極具潛力的方案。它在像素累積電荷達到飽和閾值時,不會強制截斷訊號,而是透過週期性的「重置折疊」(Wrapping)來記錄數據。

只要搭配適當的解包(Unwrapping)演算法,模數感測器在理論上能達成無上限的動態範圍。儘管前景看好,現有的模數影像系統卻受限於「曝光耦合」的設計缺陷。這意味著每一張模數影像都必須走完一個完整的物理曝光週期,導致影格率無法提升;此外,過往的解包演算法高度依賴耗時的迭代運算,且現有硬體原型多半僅支援低速、灰階的拍攝,難以投入實用。

曝光解耦架構打破傳統影格率與進光量限制

為了徹底擺脫上述影格率天花板,研究團隊提出了一種創新的「曝光解耦(Exposure-Decoupled)」運作框架。這個框架在概念上將感測過程拆分為兩個獨立的階段:「表示(Representation)」與「查詢(Query)」。在表示階段,系統將總拍攝時間切分為極度細微的微區間,藉此獲取時間維度上高密度的場景動態積分數據,而不會預先設定最終輸出的曝光時間。

進入查詢階段後,系統會透過多個可重疊的時間滑動窗口,向這個高密度數據庫提取資訊來生成模數觀測影像。每個窗口涵蓋固定數量的連續微區間,並以特定的時間步幅向前滑動。在這種解耦架構下,單張模數影像的「有效曝光時間」由窗口長度決定,而「輸出影格率」則由滑動步幅決定。

這種數學上的脫鉤帶來了巨大的優勢。系統得以維持夠長的曝光窗口來確保暗部區域具備優良的訊噪比,同時藉由極小的滑動步幅產生超高速的連續影格。更重要的是,有別於其他會打亂物理意義的編碼感測技術,這種查詢機制保留了清晰、基於單次觀測的物理前向模型,確保每一幀輸出都是標準且具備物理意義的模數影像。

結合擴散模型與 LAR 物理特性的免迭代演算

解決了硬體端的資料獲取機制後,解包演算法的效率便成為下一個關鍵。傳統依賴線性強度域的迭代解包不僅效率低落,還容易累積誤差。團隊為此開發了一套兩階段的「免迭代」解包框架,巧妙結合了預先訓練的擴散模型(Diffusion Models,擅長捕捉自然影像特徵)以及模數影像的硬物理約束。

在第一階段,為了讓擴散模型能理解非線性的模數影像,團隊利用了最小絕對餘數(Least Absolute Remainder, LAR)特性。研究人員發現,模數影像與真實 HDR 影像在經過 LAR 運算後的梯度域與拉普拉斯算子域是完全等價的。基於此特性,他們設計了金字塔型多頻適配器(PMF-Adapter),能將這些高頻與低頻特徵萃取融合,並注入預訓練的擴散模型中,藉此提取出可靠的 HDR 隱空間先驗。

進入第二階段的物理一致性解包,團隊設計了潛在調變注意力解碼器(LMA-Decoder),將 PMF-Adapter 提取的多尺度特徵用來引導 VAE 解碼過程,以抑制生成模型常見的「幻覺」現象。最後,透過循環一致性物理優化器(CCP-Refiner),將初步生成的對數域影像轉回線性域,並以正弦/餘弦空間進行循環編碼,強制確保重建結果在第零階、第一階與第二階微分上,都嚴格符合原始模數影像的物理定律。此流程將單幀推理時間壓縮至僅約 0.27 秒

脈衝相機硬體重構達成 1000 FPS 全彩捕捉

為了驗證這套解耦架構與演算法在真實世界的可行性,研究團隊並未從零開始流片製造客製化晶片,而是對市售的脈衝相機(Spike Camera)進行了物理架構的重構。原本的脈衝相機會持續輸出二進位的脈衝流,其時間密度直接反映場景輻射度,這雖然帶來極高的動態範圍,卻也造成極度肥大的頻寬負擔。

團隊建構的新架構由高速的彩色脈衝感測前端(採用非 Bayer 採樣排列),加上基於平行暫存器陣列的像素級模數編碼後端所組成。這種設計將傳統的高速原始脈衝流傳輸,轉移到了感測器內部的模數編碼環節。透過這個轉換,系統在硬體層面實現了前述的曝光解耦機制。

實測數據證明了這套硬體系統的驚人潛力。在保留脈衝相機原生高時間解析度的前提下,系統成功達成 1000 FPS 的全彩影像捕捉。最關鍵的是,其資料輸出頻寬從原本約 20 Gbps(2.5 GB/s) 暴跌至 6 Gbps(0.75 GB/s)。這項指標性的突破,證明了透過演算法與底層硬體機制的協同優化,模數影像技術完全具備部署於高速動態真實場景的潛力。

高速動態範圍攝影的未來,不再受限於無底洞般的資料傳輸頻寬;透過物理編碼與生成先驗的結合,硬體效能的極限正在被軟體架構重新定義。

Abstract

Conventional RGB-based high dynamic range (HDR) imaging faces a fundamental trade-off between motion artifacts in multi-exposure captures and irreversible information loss in single-shot techniques. Modulo sensors offer a promising alternative by encoding theoretically unbounded dynamic range into wrapped measurements. However, existing modulo solutions remain bottlenecked by iterative unwrapping overhead and hardware constraints limiting them to low-speed, grayscale capture. In this work, we present a complete modulo-based HDR imaging system that enables high-speed, full-color HDR acquisition by synergistically advancing both the sensing formulation and the unwrapping algorithm. At the core of our approach is an exposure-decoupled formulation of modulo imaging that allows multiple measurements to be interleaved in time, preserving a clean, observation-wise measurement model. Building upon this, we introduce an iteration-free unwrapping algorithm that integrates diffusion-based generative priors with the physical least absolute remainder property of modulo images, supporting highly efficient, physics-consistent HDR reconstruction. Finally, to validate the practical viability of our system, we demonstrate a proof-of-concept hardware implementation based on modulo-encoded spike streams. This setup preserves the native high temporal resolution of spike cameras, achieving 1000 FPS full-color imaging while reducing output data bandwidth from approximately 20 Gbps to 6 Gbps. Extensive evaluations indicate that our coordinated approach successfully overcomes key systemic bottlenecks, demonstrating the feasibility of deploying modulo imaging in dynamic scenarios.