10 美元 LiDAR 成功達成誤差 0.046 公尺非直視隔牆定位。

AI 導讀 technology AI 重要性 3/5

首創 7 萬筆低成本 LiDAR 非直視感測數據。
1D CNN 解析反射訊號，達成 0.046 公尺定位誤差。
數位模擬測試證實，脈衝雜訊建模是商用核心考驗。

麻省理工學院（MIT）等機構聯手推出的 DENALI 資料集，首度證明了我們口袋裡的手機 LiDAR 也能具備「隔牆觀物」的物理潛力。研究團隊利用成本僅約 10 美元 的消費級 dToF 感測器，捕捉了高達 72,000 筆 非直視（NLOS）場景數據。這項研究打破了過去 NLOS 技術高度依賴百萬級實驗室精密設備的限制，藉由引入神經網路，直接從日常被丟棄的感測器「三次反射」光子數據中提取特徵，成功實現了誤差僅 0.046 公尺 的隱藏物件定位，為消費性電子與機器人空間視覺開闢了全新路徑。

手機 dToF 感測器被丟棄的三次反射光子訊號

每次使用新款智慧型手機拍攝人像模式時，設備都會發射雷射網格，利用光學雷達（LiDAR）測量場景深度。目前大多數行動裝置採用直接飛行時間（dToF，發射光脈衝並記錄光子返回時間的技術）感測器。為了計算場景深度，LiDAR 會將光子的返回時間累積成時間長條圖（temporal histogram），並取最高峰值的時間點換算成單一距離。

然而，這個原始的時間長條圖包含了遠超出單點深度的豐富場景資訊。在主峰值之後出現的微弱訊號，通常是由多次散射的晚到光子所組成。在非直視（NLOS）成像研究中，這些微弱訊號被稱為三次反射（three-bounce）光子：光線從感測器打在可見的「中繼牆（relay wall）」上，反射到視線外的隱藏物體，再彈回中繼牆，最後才返回接收器。

中繼牆上收集到的訊號，其實是由大量散亂的光子疊加而成。因為消費級 LiDAR 通常是閃光式雷達（flash LiDAR，一次照亮整個場景的感測器），它以泛光照明廣泛覆蓋場景，使得每個像素接收到的光線來源極為複雜。這也是為什麼過去仰賴雷射單點掃描的實驗室物理重建演算法，無法直接移植到這些廉價晶片上的主因，導致業界長期以來普遍直接將這些晚到訊號當作系統雜訊並將其丟棄。

DENALI：72,000 筆低成本 LiDAR 場景數據

為了解決物理硬體上的極限落差，研究團隊將重心從傳統的幾何物理重建，轉向數據驅動的感知推理，並建立了全球首個針對低成本 LiDAR 捕捉 NLOS 訊號的真實世界資料集 DENALI。團隊選用 ams TMF8828 這款成本極低廉的消費級閃光 dToF 感測器，其硬體架構與現代手機內建模組高度相似，能輸出 128 個離散時間切片（time bins）的長條圖，並支援 3×3 與 8×8 的空間像素輸出模式。

隱藏的測試物體被安裝在配備馬達的滑軌上，避開了感測器的直視視角，共採樣 100 個不同的地面座標位置。實驗總共設計了 30 種幾何形狀 的實體測試物件，並區分為 4 吋與 8 吋兩種實際邊長尺寸。在資料採集過程中，團隊交替使用了兩種空間解析度模式，並納入開燈與關燈兩種環境照明條件。

加上三次重複硬體採樣，專案最終完成了高達 72,000 次 的完整光子長條圖紀錄，總計包含 3 億多個獨立的飛行時間切片測量值。為了確保場景的追蹤精準度，實驗現場配置了兩台 Intel RealSense D435i 深度攝影機與環境追蹤標籤。基於這些標籤追蹤數據，研究團隊利用 Mitsuba 3 物理渲染器，為每一個真實捕捉到的實體場景生成了具備 6 自由度（6-DoF）座標的數位雙生（digital twin）模型。

四大神經網路評估：1D CNN 達成 0.046 公尺定位誤差

專案團隊規劃了三項核心感知任務來測試這批低解析度長條圖的實用價值：預測隱藏物體連續座標的定位任務、辨識 30 種幾何外觀的形狀分類任務，以及判斷物件為 4 吋或 8 吋的尺寸分類任務。每一項任務輸入神經網路的數據，都是維度為 (n, n, 128) 的 LiDAR 原始光子計數張量。

為了找出最適合處理該原始數據格式的模型架構，團隊平行測試了四種神經網路：完全忽略時空結構的基準 MLP（多層感知器）、將時間切片視為通道的 1D CNN、企圖處理時空特徵的 3D CNN，以及引入標記機制的 Transformer 模型。

測試結果證實，低成本 LiDAR 的微弱訊號確實足以支撐高準度的空間數據推論。表現最佳的網路在隱藏物件定位上達成了 0.046 公尺 的均方根誤差（RMSE）；尺寸分類任務的準確率高達 95%；而 30 種形狀分類的宏觀 F1 分數也來到 0.38。特別值得一提的是，卷積網路架構（尤其是 1D CNN）在各項感知任務中穩定維持效能領先。

原本團隊預期能同時捕捉像素空間關係的 3D CNN 並未擊敗一維架構。這項結果直接反映了在 3×3 這樣極低的硬體空間解析度下，目前的演算法模型很難有效利用微弱的二維空間線索，主要還是依賴光子長條圖中的一維時間分佈特徵進行推論。

Mitsuba 3 數位雙生模擬：揭開光照與雜訊的建模限制

儘管深度學習模型在 DENALI 實測數據上展現了巨大潛力，研究分析也凸顯了當前低成本感測技術的物理場景限制。隱藏物件的大小與相對位置對預測準確度有著決定性影響，例如 8 吋物件的可被定位範圍明顯遠大於 4 吋物件。而當隱藏物件離中繼牆越近時，定位的精準度越高；但若物件緊貼牆面，三次反射的晚到光子將與牆面的一次反射強烈訊號嚴重重疊，導致神經網路完全無法辨識。

在演算法模型層面，測試發現即使是綜合表現最好的神經網路架構，對於環境全局光源是否開啟的反應，也會出現不規律的空間誤差分佈。這顯示出現階段的神經網路演算法，尚未能乾淨地將實體物件幾何屬性與環境全局光照（global illumination）的多重影響徹底解耦分離。

為促進未來的演算法開發與感測器優化，團隊運用開源渲染器 MiTransient 模擬出真實場景的數位雙生長條圖。他們發現目前的純數位模擬雖然在肉眼觀察上與真實採樣數據極為相似，卻無法正確還原真實感測器的脈衝寬度與時序抖動（jitter）雜訊。當團隊在模擬過程中加入特定的脈衝特徵校正函數後，神經網路在模擬環境下的定位誤差才出現顯著降低。這些測試證據清楚指明，針對低成本硬體建構精準的雜訊與時間特徵模型，將是推動商用非直視感測落地的必經之路。

神經網路解析 LiDAR 邊緣訊號，行動裝置免升級硬體即具備隔牆觀物的潛力。

Abstract

Consumer LiDARs in mobile devices and robots typically output a single depth value per pixel. Yet internally, they record full time-resolved histograms containing direct and multi-bounce light returns; these multi-bounce returns encode rich non-line-of-sight (NLOS) cues that can enable perception of hidden objects in a scene. However, severe hardware limitations of consumer LiDARs make NLOS reconstruction with conventional methods difficult. In this work, we motivate a complementary direction: enabling NLOS perception with low-cost LiDARs through data-driven inference. We present DENALI, the first large-scale real-world dataset of space-time histograms from low-cost LiDARs capturing hidden objects. We capture time-resolved LiDAR histograms for 72,000 hidden-object scenes across diverse object shapes, positions, lighting conditions, and spatial resolutions. Using our dataset, we show that consumer LiDARs can enable accurate, data-driven NLOS perception. We further identify key scene and modeling factors that limit performance, as well as simulation-fidelity gaps that hinder current sim-to-real transfer, motivating future work toward scalable NLOS vision with consumer LiDARs.

DENALI: A Dataset Enabling Non-Line-of-Sight Spatial Reasoning with Low-Cost LiDARs

手機 dToF 感測器被丟棄的三次反射光子訊號

DENALI：72,000 筆低成本 LiDAR 場景數據

四大神經網路評估：1D CNN 達成 0.046 公尺定位誤差

Mitsuba 3 數位雙生模擬：揭開光照與雜訊的建模限制

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

SPLIT 框架透過多重數據分割與測量域損失，成功讓 5 通道多光譜 CT 在零真實影像下完成非線性自監督重建。

ERR 框架透過頻譜解耦分三階段修復影像，同時釋出 82,126 張 UHD 測試影像庫。