CAVERS: Multimodal SLAM Data from a Natural Karstic Cave with Ground Truth Motion Capture

Giacomo Franchini, David Rodríguez-Martínez, Alfonso Martínez-Petersen, C. J. Pérez-del-Pulgar, Marcello Chiaberge

View Original ↗
AI 導讀 technology AI 重要性 4/5

西班牙喀斯特溶洞收集了 335GB 多模態數據與 120Hz 動作捕捉真值,彌補了天然惡劣地下環境的 SLAM 測試資料空白。

  • 具備 24 個序列,整合 RGB-D、熱影像、高解析光達與 120Hz 動作捕捉系統真值。
  • 測試 7 款 SLAM 演算法證實光達在黑暗、不規則溶洞中的穩定性大幅超越視覺方法。
  • 提供全黑、人造光等不同照明環境,並支援高斯濺射技術進行高精細的地下 3D 重建。

西班牙 Cueva de la Victoria 溶洞內記錄了 335 GB、共計 24 個序列的多模態環境數據,並具備 120 Hz 毫米級動作捕捉系統真值,這構成了最新的 CAVERS 資料集。相較於結構規則的人工地下環境,天然喀斯特(karstic)溶洞的極端不規則幾何與完全無光特徵,為機器人空間定位與建圖系統帶來極大考驗,填補了該領域的資料空白。

缺乏天然喀斯特溶洞資料的地下機器人導航

地下空洞探勘對生物學與地質學具有高度價值,但環境充滿危險、無環境光且缺乏如 GNSS(全球導航衛星系統)的絕對定位基礎設施。自主機器人成為代替人類進入高風險區域的理想選擇。在 DARPA 地下挑戰賽推動下,SLAM(即時定位與建圖)技術有顯著進展,但現有的公開資料集大多集中於礦坑與隧道等人工環境,這類空間具有相對規則的幾何與可預測結構。

少數針對天然環境的資料集多以熔岩管為主,其玄武岩管狀地貌仍屬於相對單純的隧道結構。天然喀斯特溶洞則具備不規則幾何、狹窄通道、垂直結構與高反射率的濕滑表面,這對視覺特徵提取與閉環檢測(loop-closure detection,辨識機器人是否回到曾到過的地點的技術)形成嚴峻考驗。CAVERS 資料集正是為解決這項多模態感測與環境多樣性的稀缺而誕生。

Cueva de la Victoria 溶洞與 24 個數據序列

資料集採集地位於西班牙馬拉加(Málaga)的 Cueva de la Victoria,該地層在侏羅紀時期受到水體滲透,形成了複雜的喀斯特地貌。團隊選擇了兩個尺度與結構截然不同的空間:長 30 公尺的 Sala del Dosel 與長 50 公尺的 Sala de las Conchas。所有硬體設備必須穿過狹窄通道與不平坦地形才能完成地下部署。

總計 24 個序列依照兩種操作配置進行錄製:手持感測器模組,以及搭載於 DIABLO 輪式機器人上。手持模式提供極高的運動靈活性,能夠完整掃描洞穴頂部與牆面;輪式機器人則能重現真實探勘任務中的視野與運動動態。為測試感測器極限,序列涵蓋了搭載 LED 頭燈的局部人造光照明以及完全無光的極端情境。實測發現,在強光直射的高反射率岩壁區域,深度相機常因過曝而遺失特徵數據。

RGB-D與Optris熱影像光達的多模態整合

整套感測器陣列整合了三種核心模態。視覺與深度方面採用 Intel RealSense D435i 攝影機,提供 15 Hz 的 RGB 與深度影像,並內建高頻 IMU(慣性測量單元)。熱力學特徵交由 Optris PI640i 近紅外線熱影像儀捕捉,該設備專注於 8–14 微米光譜範圍,熱靈敏度達 75 mK,以 6 Hz 頻率輸出正規化的 16-bit 單通道熱影像。

雷射掃描部分裝備了 Velodyne VLP-16 的 360 度旋轉光達,團隊將轉速設定在最低的 300 rpm,藉此獲得 0.1 度的最高方位角解析度。所有數據皆以 ROS 2(機器人作業系統)的 MCAP 格式記錄為 rosbag,同時也提供獨立的 PNG 影像與 PCD 點雲檔,確保不依賴特定軟體生態系的開發者也能使用。時間軸透過統一的參考點記錄數據流,消除了時鐘漂移的問題。

架設 Optitrack 系統提供 120Hz 軌跡真值

要在黑暗受限的溶洞內架設基礎設施難度極高,工程人員最終成功在洞穴內安裝並校準了由十台紅外線攝影機組成的 Optitrack 動作捕捉系統。此系統能以 120 Hz 頻率提供毫米級的 6DoF(六自由度)姿態與速度真值。被標記為 loc 前綴的序列,便是專門設計用來定量評估 SLAM 演算法的軌跡精準度。

將這套數據套用於 7 款主流 SLAM 與里程計演算法後,基準測試結果顯示,光達演算法(如 KISS-ICP 與 GENZ-ICP)在所有場景下皆穩定勝過純視覺方法,主因是雷射掃描不受極端光照條件影響,且洞穴岩壁充滿豐富的立體幾何特徵。視覺定位系統(如 ORBSLAM3)在輪式機器人的劇烈震動與快速轉向時,容易因運動模糊而完全丟失追蹤;唯有引入慣性數據的視覺慣性(Visual-Inertial)模式,才能有效收斂漂移範圍並維持全域路徑估計。

測試高斯濺射3D重建與實地部署留下的偽影

除了定位追蹤,標記為 rec 的序列專注於密集 3D 重建與地圖構建測試。這些序列在錄製時移除了動捕系統的硬體設備,以保持環境視野的完整性。利用基於 Nerfstudio 架構的 Splatfacto-W,研究者成功測試了高斯濺射(Gaussian Splatting)的洞穴重建,並將高精度真值輸入 RTAB-Map 生成完整的地下光達點雲地圖。

極端環境的實地探勘仍伴隨著難以避免的數據偽影。在具備真值的序列中,一定會拍到動作捕捉攝影機的腳架與走線;Optris 熱影像儀器也記錄下了鄰近相機運作時產生的散熱餘溫。受限於必須以手持與拖線方式操作設備,操作員的輪廓偶爾會出現在光達掃描的後方區域。儘管存在硬體限制,CAVERS 資料集的高精確度與惡劣環境特性,大幅拓寬了學界驗證地下自駕系統的基礎。

透過極端地下洞穴的真實感測資料與毫米級真值對照,光達與慣性測量在複雜岩體中展現了無法被純視覺取代的強健定位能力,為非結構化環境的自駕系統指明了感測融合方向。

Abstract

Autonomous robots operating in natural karstic caves face perception and navigation challenges that are qualitatively distinct from those encountered in mines or tunnels: irregular geometry, reflective wet surfaces, near-zero ambient light, and complex branching passages. Yet publicly available datasets targeting this environment remain scarce and offer limited sensing modalities and environmental diversity. We present CAVERS, a multimodal dataset acquired in two structurally distinct rooms of Cueva de la Victoria, Málaga, Spain, comprising 24 sequences totaling approximately 335 GB of recorded data. The sensor suite combines an Intel RealSense D435i RGB-D-I camera, an Optris PI640i near-IR thermal camera, and a Velodyne VLP-16 LiDAR, operated both handheld and mounted on a wheeled rover under full darkness and artificial illumination. For most of the sequences, mm-accurate 6-DoF ground truth pose and velocity at 120 Hz are provided by an Optirack motion capture system installed directly inside the cave. We benchmark seven state-of-the-art SLAM and odometry algorithms spanning visual, visual-inertial, thermal-inertial, and LiDAR-based pipelines, as well as a 3D reconstruction pipeline, demonstrating the dataset's usability. %The dataset and all supplementary material are publicly available at: https://github.com/spaceuma/cavers.