CT-VIR: Continuous-Time Visual-Inertial-Ranging Fusion for Indoor Localization with Sparse Anchors

Yu-An Liu, Li Zhang

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

CT-VIR 演算法透過 B 樣條連續時間建模與虛擬基站技術,在僅有 4 個實體基站下,將室內無人機真實世界軌跡誤差壓低至 0.0873 公尺。

  • 採用三次 B 樣條參數化 SE(3) 軌跡,解決 VIO 與 UWB 感測器速率不同步所導致的插值誤差與雜訊放大問題。
  • 結合 VIO 運動先驗與 MAD 統計檢查,系統能有效濾除 UWB 非直視性傳播(NLOS)帶來的極端測距雜訊。
  • 透過局部最小平方與費雪資訊矩陣驗證建構「虛擬基站」,在實體錨點匱乏時大幅增強了空間定位的幾何可觀測性。

室內無人機與移動機器人的自主導航面臨嚴峻挑戰,純視覺慣性里程計在長距離運作下無可避免會產生軌跡漂移。儘管引入超寬頻(UWB)測距能修正誤差,但在實體定點基站少於 4 個的狹窄環境中,傳統離散時間演算法往往因訊號阻擋與非同步採樣而導致系統崩潰。一項最新研究提出 CT-VIR 連續時間融合框架,透過建構「虛擬基站」與 B 樣條軌跡參數化,在僅有 4 個基站的真實世界實測中,成功將平均絕對軌跡誤差壓低至 0.0873 公尺,為資源受限的室內定位指出了全新技術路徑。

室內定位的幾何退化與非同步感測器挑戰

無人飛行載具(UAV)等移動機器人在複雜環境中的自主運行,高度仰賴準確且穩健的狀態估計。視覺慣性里程計(VIO)因成本低且短期精準度高,成為業界廣泛採用的姿態估計方法。系統藉由緊密融合攝影機與慣性測量單元(IMU)的數據,能在不依賴外部基礎設施的情況下維持基本運作。然而,缺乏全局約束條件的 VIO,在紋理稀疏、動態模糊或局部遮蔽的場景中,無可避免會面臨長期的軌跡漂移與效能衰退。

為了解決漂移問題並提升全局一致性,許多研究將多感測器融合技術導入 VIO 流程中。引入測距感測器特別具備吸引力,因為它們能提供與環境或外部參考點的絕對距離資訊。在無法使用全球衛星導航系統(GNSS)的室內或地下環境中,超寬頻(UWB)測距數據提供了一種實用且具備穿透力的替代方案。

高精度的 UWB 測距極度依賴實體基站(Anchors)的數量與幾何分佈。在狹窄的室內空間或低功耗環境中,部署並維護足夠數量且經過良好校準的基站是一大挑戰。更嚴重的是,UWB 訊號容易受到非直視性傳播(NLOS)與多徑效應的干擾,產生帶有偏差且長尾分佈的誤差,若未經妥善處理,將大幅削弱定位系統的可靠度。

另一個技術瓶頸來自視覺、慣性與測距數據的非同步與多速率特性。現有的多感測器融合大多建立在離散時間框架上,無論是基於卡爾曼濾波器(Kalman Filter)還是批量最佳化(Batch Optimization),這類方法通常依賴簡化的運動模型在離散節點間傳播狀態。系統往往將測距時間戳記強制對齊到最近的關鍵影格或 IMU 積分區間,導致在感測器採樣頻率差異極大或測距更新稀疏的情況下,難以同時兼顧定位精準度、時間一致性與運算效率。

突破離散框架限制的三次 B 樣條軌跡建模

為了克服離散時間模型的先天缺陷,連續時間表示法在複雜動態系統的建模中越來越受到學界青睞。對於要求高軌跡平滑度、時間一致性以及精確對齊非同步感測器數據的無人機軌跡估計任務而言,連續時間軌跡提供了極具潛力的底層架構解決方案。

研究團隊提出的 CT-VIR 框架,將機器人的運動軌跡建模為三維空間旋轉與平移矩陣(SE(3))中平滑的三次 B 樣條(Cubic B-spline)曲線。這種參數化方法透過一組有限的平移與旋轉控制點來表示姿態,讓異質且非同步的感測器測量值都能在其確切發生的時間戳記上進行數學關聯,免去了粗暴的對齊妥協。

在這種架構下,系統能夠利用解析的軌跡導數,以原則性的方式直接整合慣性約束。具體而言,透過連續時間樣條計算出的旋轉矩陣與位置二次導數,演算法可以直接預測出機器人本體的角速度與比力(Specific Force),這與 IMU 實際讀取的物理量完全吻合。

相較於傳統離散方法在基站稀少時容易因插值運算放大測距雜訊,B 樣條的連續性質能更穩健地吸收來自攝影機、IMU 與零星 UWB 基站的觀測值。系統將視覺重投影、IMU 預積分以及測距約束轉化為滑動視窗因子圖(Sliding-window factor graph)中的殘差因子,並透過稀疏非線性最小平方法聯合最佳化這些樣條控制點與輔助參數,從而獲得連續且平滑的全局軌跡估計。

結合 VIO 先驗與虛擬基站過濾測距異常值

當實體基站數量不足時,即便執行了異常值剔除,直接使用原始測距數據進行多邊定位(Multilateration)依然高度不可靠。為了在不增加額外硬體設施的情況下改善測距的幾何約束,研究團隊開發了一套由運動先驗引導的雙階段測距預處理機制。

第一階段聚焦於穩健的異常值拒絕。系統不再盲目依賴測量空間中的局部幾何特徵,而是利用 VIO 前端提供的短期運動先驗(或連續時間後端中當前的樣條估計值),來預測機器人在特定時間點的絕對位置。接著,針對 UWB 測距殘差執行基於中位數與絕對中位差(MAD)的統計檢查,藉此高效率地濾除因 NLOS 或多徑訊號反射造成的極端數值錯誤。

第二階段則是本研究的核心突破:虛擬基站(Virtual Anchors, VAs)的動態建構。有別於將單一基站透過相對座標變換進行簡單推廣,系統從短暫的「運動-測距」片段序列中,透過求解小型局部最小平方問題,逆向估測出具備實體基站特性的局部虛擬錨點。

為了確保這些生成的虛擬基站能提供實質且非退化的幾何資訊,系統會嚴格評估候選虛擬點對費雪資訊矩陣(Fisher Information)的增量可觀測性貢獻。同時,演算法會強制執行角度多樣性檢查,剔除與現有實體基站視線方向幾乎共線的候選點。最終,物理基站與虛擬基站會在因子圖運算中被一視同仁地處理,共同為 B 樣條軌跡提供厚實的測距因子。

跨資料集與真實無人機飛行的精準度驗證

為驗證 CT-VIR 框架的實際效能,團隊在多個公開資料集與真實世界場景進行了詳盡的實驗對比。在合成的 EuRoC 與 UZH-FPV 資料集中,研究人員精準模擬了帶有高斯雜訊與正向異常偏差的 UWB 測距數據,並將新演算法與 Spline-UI、Spline-VIO 等連續時間基準,以及 EKF-VIU、HCCNet 等離散時間融合模型進行了全面較量。

測試數據明確指出,在配置 4 個基站(A=4)的常規情況下,CT-VIR 在 EuRoC 與 UZH-FPV 雙雙取得最低的平均絕對軌跡誤差(分別僅有 0.0815 公尺與 0.3081 公尺)。即便是拔除一個節點的 3 個基站(A=3)嚴苛設定下,當部分對照組演算法出現軌跡發散或直接崩潰時,該連續時間框架依然能保持穩健的空間估計輸出。

在包含真實硬體雜訊的 NTU VIRAL 資料集中,團隊進一步透過軟體遮蔽單一基站訊號,測試了僅有 2 個實體基站的極限狀態。實驗證實,CT-VIR 在 A=3 條件下達到了 0.1548 公尺的誤差水準;而在 A=2 的嚴重退化幾何中,雖誤差自然上升至 0.2530 公尺,但依然顯著擊敗了其他連續時間基礎模型,展現出對高機動性無人機飛行軌跡的強大適應力。

真實世界的硬體驗證涵蓋了地下停車場、教室與辦公室大廳等複雜場景。無人機搭載 Intel RealSense D435i 深度攝影機與 DWM1000 UWB 模組進行實地飛行。最終結果顯示,在缺乏衛星訊號且雜訊滿布的地下室環境中,4 基站配置達成了 0.0873 公尺的極低平均軌跡誤差。這項成就證明了將 UWB 幾何約束無縫融入連續時間樣條公式中,對於突破實體場域導航精準度天花板具有決定性的價值。

透過連續時間樣條建模與局部虛擬基站演算法,異質非同步感測器能在極少實體節點的條件下達成高精度狀態融合,為室內機器人與無人機的低成本自主導航奠定了全新基礎。

Abstract

Visual-inertial odometry (VIO) is widely used for mobile robot localization, but its long-term accuracy degrades without global constraints. Incorporating ranging sensors such as ultra-wideband (UWB) can mitigate drift; however, high-accuracy ranging usually requires well-deployed anchors, which is difficult to ensure in narrow or low-power environments. Moreover, most existing visual-inertial-ranging (VIR) fusion methods rely on discrete time-based filtering or optimization, making it difficult to balance positioning accuracy, trajectory consistency, and fusion efficiency under asynchronous multi-sensor sampling. To address these issues, we propose a spline-based continuous-time state estimation method for VIR fusion localization. In the preprocessing stage, VIO motion priors and UWB ranging measurements are used to construct virtual anchors and reject outliers, thereby alleviating geometric degeneration and improving range reliability. In the estimation stage, the pose trajectory is parameterized in continuous time using a B-spline, while inertial, visual, and ranging constraints are formulated as factors in a sliding-window graph. The spline control points, together with a small set of auxiliary parameters, are then jointly optimized to obtain a continuous-time trajectory estimate. Evaluations on public datasets and real-world experiments demonstrate the effectiveness and practical potential of the proposed approach.