全新模數編碼系統結合曝光解耦與免迭代演算法，在達成 1000 FPS 全彩 HDR 攝影的同時，將資料傳輸頻寬暴減 70

AI 導讀 technology infrastructure 重要性 4/5

全新模數編碼系統結合曝光解耦與免迭代演算法，在達成 1000 FPS 全彩 HDR 攝影的同時，將資料傳輸頻寬暴減 70%。

首創曝光解耦架構，將硬體感測拆分為表示與查詢階段，徹底打破影格率與低光進光量互斥的物理限制。
結合擴散模型先驗與 LAR 物理約束，開發出免迭代解包演算法，達成精準且無幻覺的 HDR 重建，單幀處理僅 0.27 秒。
透過像素級模數編碼重構脈衝相機，在維持 1000 FPS 的前提下，成功將頻寬需求從 20 Gbps 壓縮至 6 Gbps。

傳統高速脈衝相機（Spike Camera）為捕捉極限動態範圍，往往需要高達 20 Gbps 的驚人傳輸頻寬，這使得高解析度連續拍攝在硬體上難以規模化。來自北京大學與日本國立情報學研究所的研究團隊，近期提出一套全新的模數編碼（Modulo-Encoded）HDR 系統，在維持 1000 FPS 全彩捕捉能力的同時，成功將資料吞吐量大幅縮減 70% 至 6 Gbps。這項技術不僅解決了多重曝光帶來的殘影問題，更透過底層運算邏輯的重構，為高速動態場景的影像重建開闢了全新路徑。

傳統 HDR 攝影瓶頸與 Modulo 感測器的底層機制

現實環境的光影變化極端，單一場景的動態範圍往往跨越多個數量級。常規的數位相機在面對此類高反差場景時，亮部容易過曝飽和，暗部則充滿雜訊。為了解決這個問題，業界最普遍的做法是「多重曝光融合」，也就是連續拍攝不同曝光時間的低動態範圍（LDR）影像後進行合成。然而，這種多重拍攝策略在面對相機晃動或動態物件時極為脆弱，極易產生難以消除的殘影與鬼影。

另一種解法是單張 LDR 影像的演算法重建，這完全避開了動態殘影的問題。不過，單憑一張已在亮部遺失物理資訊的影像來「幻覺」出細節，本質上是一個嚴峻的逆向工程挑戰，嚴重限制了重建的逼真度與泛化能力。為了從硬體層面突破上述限制，非傳統感測器應運而生，其中模數感測器（Modulo Sensor）提供了一種極具潛力的方案。它在像素累積電荷達到飽和閾值時，不會強制截斷訊號，而是透過週期性的「重置折疊」（Wrapping）來記錄數據。

只要搭配適當的解包（Unwrapping）演算法，模數感測器在理論上能達成無上限的動態範圍。儘管前景看好，現有的模數影像系統卻受限於「曝光耦合」的設計缺陷。這意味著每一張模數影像都必須走完一個完整的物理曝光週期，導致影格率無法提升；此外，過往的解包演算法高度依賴耗時的迭代運算，且現有硬體原型多半僅支援低速、灰階的拍攝，難以投入實用。

曝光解耦架構打破傳統影格率與進光量限制

為了徹底擺脫上述影格率天花板，研究團隊提出了一種創新的「曝光解耦（Exposure-Decoupled）」運作框架。這個框架在概念上將感測過程拆分為兩個獨立的階段：「表示（Representation）」與「查詢（Query）」。在表示階段，系統將總拍攝時間切分為極度細微的微區間，藉此獲取時間維度上高密度的場景動態積分數據，而不會預先設定最終輸出的曝光時間。

進入查詢階段後，系統會透過多個可重疊的時間滑動窗口，向這個高密度數據庫提取資訊來生成模數觀測影像。每個窗口涵蓋固定數量的連續微區間，並以特定的時間步幅向前滑動。在這種解耦架構下，單張模數影像的「有效曝光時間」由窗口長度決定，而「輸出影格率」則由滑動步幅決定。

這種數學上的脫鉤帶來了巨大的優勢。系統得以維持夠長的曝光窗口來確保暗部區域具備優良的訊噪比，同時藉由極小的滑動步幅產生超高速的連續影格。更重要的是，有別於其他會打亂物理意義的編碼感測技術，這種查詢機制保留了清晰、基於單次觀測的物理前向模型，確保每一幀輸出都是標準且具備物理意義的模數影像。

結合擴散模型與 LAR 物理特性的免迭代演算

解決了硬體端的資料獲取機制後，解包演算法的效率便成為下一個關鍵。傳統依賴線性強度域的迭代解包不僅效率低落，還容易累積誤差。團隊為此開發了一套兩階段的「免迭代」解包框架，巧妙結合了預先訓練的擴散模型（Diffusion Models，擅長捕捉自然影像特徵）以及模數影像的硬物理約束。

在第一階段，為了讓擴散模型能理解非線性的模數影像，團隊利用了最小絕對餘數（Least Absolute Remainder, LAR）特性。研究人員發現，模數影像與真實 HDR 影像在經過 LAR 運算後的梯度域與拉普拉斯算子域是完全等價的。基於此特性，他們設計了金字塔型多頻適配器（PMF-Adapter），能將這些高頻與低頻特徵萃取融合，並注入預訓練的擴散模型中，藉此提取出可靠的 HDR 隱空間先驗。

進入第二階段的物理一致性解包，團隊設計了潛在調變注意力解碼器（LMA-Decoder），將 PMF-Adapter 提取的多尺度特徵用來引導 VAE 解碼過程，以抑制生成模型常見的「幻覺」現象。最後，透過循環一致性物理優化器（CCP-Refiner），將初步生成的對數域影像轉回線性域，並以正弦/餘弦空間進行循環編碼，強制確保重建結果在第零階、第一階與第二階微分上，都嚴格符合原始模數影像的物理定律。此流程將單幀推理時間壓縮至僅約 0.27 秒。

脈衝相機硬體重構達成 1000 FPS 全彩捕捉

為了驗證這套解耦架構與演算法在真實世界的可行性，研究團隊並未從零開始流片製造客製化晶片，而是對市售的脈衝相機（Spike Camera）進行了物理架構的重構。原本的脈衝相機會持續輸出二進位的脈衝流，其時間密度直接反映場景輻射度，這雖然帶來極高的動態範圍，卻也造成極度肥大的頻寬負擔。

團隊建構的新架構由高速的彩色脈衝感測前端（採用非 Bayer 採樣排列），加上基於平行暫存器陣列的像素級模數編碼後端所組成。這種設計將傳統的高速原始脈衝流傳輸，轉移到了感測器內部的模數編碼環節。透過這個轉換，系統在硬體層面實現了前述的曝光解耦機制。

實測數據證明了這套硬體系統的驚人潛力。在保留脈衝相機原生高時間解析度的前提下，系統成功達成 1000 FPS 的全彩影像捕捉。最關鍵的是，其資料輸出頻寬從原本約 20 Gbps（2.5 GB/s） 暴跌至 6 Gbps（0.75 GB/s）。這項指標性的突破，證明了透過演算法與底層硬體機制的協同優化，模數影像技術完全具備部署於高速動態真實場景的潛力。

高速動態範圍攝影的未來，不再受限於無底洞般的資料傳輸頻寬；透過物理編碼與生成先驗的結合，硬體效能的極限正在被軟體架構重新定義。

Abstract

Conventional RGB-based high dynamic range (HDR) imaging faces a fundamental trade-off between motion artifacts in multi-exposure captures and irreversible information loss in single-shot techniques. Modulo sensors offer a promising alternative by encoding theoretically unbounded dynamic range into wrapped measurements. However, existing modulo solutions remain bottlenecked by iterative unwrapping overhead and hardware constraints limiting them to low-speed, grayscale capture. In this work, we present a complete modulo-based HDR imaging system that enables high-speed, full-color HDR acquisition by synergistically advancing both the sensing formulation and the unwrapping algorithm. At the core of our approach is an exposure-decoupled formulation of modulo imaging that allows multiple measurements to be interleaved in time, preserving a clean, observation-wise measurement model. Building upon this, we introduce an iteration-free unwrapping algorithm that integrates diffusion-based generative priors with the physical least absolute remainder property of modulo images, supporting highly efficient, physics-consistent HDR reconstruction. Finally, to validate the practical viability of our system, we demonstrate a proof-of-concept hardware implementation based on modulo-encoded spike streams. This setup preserves the native high temporal resolution of spike cameras, achieving 1000 FPS full-color imaging while reducing output data bandwidth from approximately 20 Gbps to 6 Gbps. Extensive evaluations indicate that our coordinated approach successfully overcomes key systemic bottlenecks, demonstrating the feasibility of deploying modulo imaging in dynamic scenarios.

High-Speed Full-Color HDR Imaging via Unwrapping Modulo-Encoded Spike Streams

傳統 HDR 攝影瓶頸與 Modulo 感測器的底層機制

曝光解耦架構打破傳統影格率與進光量限制

結合擴散模型與 LAR 物理特性的免迭代演算

脈衝相機硬體重構達成 1000 FPS 全彩捕捉

Abstract

🔗 相關推薦

透過階層實體耦合與僅 2,560 參數的微型介面，熱力學擴散推論能在維持 0.99 準確度下節省 1,000 萬倍能耗。

ViT 剪枝後運算量減少 96%，延遲卻未改善，研究揭露 62 微秒的 API 調度開銷才是真正瓶頸。

研究證實量子幾何半金屬能在 1 kV/cm 電場下，利用帶間躍遷達成 2-3 飛秒的極速電流切換，突破太赫茲極限。