Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye

Tianjun Zhang, Fengyi Zhang, Tianchen Deng, Lin Zhang, Hesheng Wang

View Original ↗
AI 導讀 technology AI 重要性 4/5

CAL²M 引入恆定間距的輔助鏡頭,成功讓視覺基礎模型實現無事前校正的公里級 SLAM 建圖。

  • 憑藉輔助鏡頭的恆定間距先驗,系統無須硬體同步即可消除單眼尺度的長期漂移。
  • 基於極線幾何建構動態測試庫,系統可有效修正相機內參錯誤引發的姿態扭曲。
  • 捨棄剛性線性變換,改採非線性的幾何錨點傳播對齊子地圖,確保全域建圖一致性。

視覺幾何基礎模型(VGFMs)在短影格的 3D 重建任務中展現了驚人的零樣本能力,但當系統軌跡拉長至公里級距時,直接套用現有框架卻經常遭遇災難性的地圖發散。為了跨越這道鴻溝,研究團隊提出 CAL²M 框架,透過引入一顆無須事前校正的「輔助鏡頭」,僅憑藉保持恆定物理間距的假設,便能從根本上消除單鏡頭難解的尺度模糊問題,實現無須硬體同步的長距離即時定位與建圖。

VGFMs 跨入公里級 SLAM 的幾何挑戰

傳統的同步定位與建圖(SLAM)系統高度依賴精準的感測器事前校正,但在實際部署中,機械結構隨時間老化經常導致標定失效。近期,視覺幾何基礎模型(VGFMs)如 DUSt3R 與 VGGT 徹底改變了這個領域。這些模型將 3D 重建轉化為密集的像素級回歸任務,繞過了傳統從運動中恢復結構(SfM)的剛性幾何限制。透過海量資料庫訓練,VGFMs 具備強大的零樣本泛化能力,能在傳統特徵點方法容易失效的極端視角與無校正影像序列中,直接恢復 3D 場景結構。

回顧過往的視覺建圖技術,從依賴全局光束平差法(Bundle Adjustment)的 COLMAP,到近年追求極致渲染畫質卻極度消耗運算資源的 NeRF(神經輻射場)與 3DGS(3D 高斯濺射),多數方法本質上是對單一場景「過度擬合」的離線優化,極難適應即時在線的長途探索。即便最新一代支援時序輸入的 VGFMs 模型解決了推論效率,但將其局部重建能力延伸到公里級長軌跡時,仍面臨難以跨越的穩定性障礙。現有如 VGGT-SLAM 等方法多採用子地圖(sub-map)策略,將長軌跡分割計算後,再以 Sim3 或 SL4 等線性變換來拼接。

研究團隊指出,單一線性變換根本無法處理 VGFMs 輸出中複雜且高度耦合的非線性幾何扭曲。具體而言,這種幾何誤差來自三大來源:首先是固有的尺度模糊,單眼相機無法觀測絕對公制尺度,導致不同子地圖間的比例劇烈波動;其次是相機內參與姿態的不確定性,模型在直線行駛等退化運動中難以區分焦距與視角的差異;最後,即使特徵匹配準確,這些誤差仍會造成 3D 點雲的非線性結構變形。強行用線性變換拼接這些子地圖,只會讓未修正的殘差沿著軌跡快速累積。

雙鏡頭架構捨棄硬體同步與事前時空校正

為了解決剛性對齊引發的致命缺陷,研究團隊開發了相容於任意基礎模型的隨插即用框架 CAL²M。有別於要求嚴格硬體觸發同步與精確相對位置標定的傳統立體視覺(Stereo SLAM)系統,CAL²M 引入了極度輕量的「輔助鏡頭」(Assistant Eye)機制。系統僅利用主鏡頭與輔助鏡頭之間保持固定物理間距(Constant Spacing)這項先驗知識,就能作為穩定的全局基準,進而維持長途運作的尺度一致性。

在操作流程上,系統採用滑動視窗策略將連續影片流分割為多組子地圖。當主鏡頭的影像光流變化超過閾值並觸發新的關鍵影格時,系統會自動在時間軸上尋找最接近的輔助鏡頭畫面進行關聯。特別的是,無論這兩股影像串流是否具備精準的時鐘同步,CAL²M 都能透過 SE(3) 空間插值技術,推算出主輔鏡頭在同一個時間點的相對姿態,展現極高的硬體部署寬容度。

接著,系統會運用 VGFM 模型估算出的瞬時相機間距,並將第一張子地圖的平均間距定義為全局參考尺度,藉此計算出動態的尺度校正因子。這個校正因子隨後被應用於修正當下子地圖內的平移向量與深度圖。由於尺度的修正基準僅依賴當下觀測與固定的初始數值,這項設計巧妙地切斷了累積誤差在歷史軌跡間的傳遞鏈,從根本上消除了長期運作下的尺度漂移風險。

基於極線幾何與基礎矩陣分解的姿態修正

針對 VGFMs 模型容易因相機觀測模型的仿射模糊(Affine Ambiguity)而產生內參估計飄移的問題,CAL²M 設計了一套基於極線幾何(Epipolar Geometry)的線上搜尋模組。系統在運行過程中會自動建構一個測試庫,每處理五個子地圖便提取 SIFT 特徵並配對計算基礎矩陣。透過評估不同候選內參所轉換出的本質矩陣(Essential Matrix)的奇異值分佈特性,系統能為各式內參結果進行信心評分,藉此過濾出全域最佳的相機內參。

確立了精準的全局內參後,真正的挑戰在於如何糾正那些已經被模型用錯誤內參推算出來的相機姿態。對此,研究團隊深入利用基礎矩陣的不變性,推導出嚴謹的動態姿態修正數學模型。透過比較真實本質矩陣與估算本質矩陣之間的差異,並定義專屬的縮放矩陣(Scaling Matrix)與偏差矩陣,系統成功在數學層面上將平移與旋轉的幾何失真分離出來。

在具體的修正執行上,平移校正透過正規化 Z 軸向量來重新對齊深度圖的基準,避免打破 VGFM 原始輸出的內部尺度一致性;而在旋轉校正方面,團隊運用了一階微擾分析(First-order perturbation analysis),在全域座標系中重新定義出無偏差的旋轉矩陣。這套底層校正機制能在不依賴任何外部標定板的情況下,即時糾正因模型誤判所引發的旋轉與平移耦合偏差。

全域一致性建圖與主輔聯合姿態圖優化機制

除了確保軌跡定位的精準度,最終 3D 建圖的全局一致性同樣是長軌跡 SLAM 的核心指標。為了確保錯綜複雜的子地圖能無縫接合,CAL²M 實作了基於幾何錨點(Geometric Anchors)傳播的對齊策略。系統會在每個子地圖內部提取高信賴度的錨點,並透過前後向傳播與特徵融合,建立起直接且穩定的局部到全域映射關係。

具備了這層全域結構基礎後,系統徹底捨棄了傳統的剛性線性變換,改採薄板樣條(Thin Plate Spline)等非線性變換技術來彈性對齊子地圖。這種非線性對齊方式能像拉伸彈性布料一般,有效吸收並抵消單純平移或旋轉所無法解決的局部幾何結構錯位,大幅提升了最終 3D 重建點雲的視覺品質與環境真實度。

在後端優化環節中,CAL²M 會在偵測到迴圈閉合(Loop Closure)或全域姿態更新時觸發主輔聯合姿態圖優化(PGO)。有別於傳統將雙鏡頭軌跡分開計算的做法,系統將輔助鏡頭的軌跡參數化為主鏡頭姿態與靜態外部參數的乘積,充分利用了雙鏡頭相對位置固定的物理限制。結合 SALAD 模型提取特徵進行迴圈檢測,系統將 VGFM 單次前向推論得出的長期相對姿態作為約束條件,輸入至 GTSAM 框架進行非線性優化,徹底清除了累積的長程漂移。

透過無須嚴格同步的輔助鏡頭與非線性錨點傳播技術,CAL²M 將視覺幾何基礎模型的零樣本潛力,真正釋放於真實世界公里級導航中。

Abstract

Visual Geometry Foundation Models (VGFMs) demonstrate remarkable zero-shot capabilities in local reconstruction. However, deploying them for kilometer-level Simultaneous Localization and Mapping (SLAM) remains challenging. In such scenarios, current approaches mainly rely on linear transforms (e.g., Sim3 and SL4) for sub-map alignment, while we argue that a single linear transform is fundamentally insufficient to model the complex, non-linear geometric distortions inherent in VGFM outputs. Forcing such rigid alignment leads to the rapid accumulation of uncorrected residuals, eventually resulting in significant trajectory drift and map divergence. To address these limitations, we present CAL2M (Calibration-free Assistant-eye based Large-scale Localization and Mapping), a plug-and-play framework compatible with arbitrary VGFMs. Distinct from traditional systems, CAL2M introduces an "assistant eye" solely to leverage the prior of constant physical spacing, effectively eliminating scale ambiguity without any temporal or spatial pre-calibration. Furthermore, leveraging the assumption of accurate feature matching, we propose an epipolar-guided intrinsic and pose correction model. Supported by an online intrinsic search module, it can effectively rectify rotation and translation errors caused by inaccurate intrinsics through fundamental matrix decomposition. Finally, to ensure accurate mapping, we introduce a globally consistent mapping strategy based on anchor propagation. By constructing and fusing anchors across the trajectory, we establish a direct local-to-global mapping relationship. This enables the application of nonlinear transformations to elastically align sub-maps, effectively eliminating geometric misalignments and ensuring a globally consistent reconstruction. The source code of CAL2M will be publicly available at https://github.com/IRMVLab/CALM.