Subsurface Property Mapping using Google AlphaEarth Foundations

Nori Nakata, Jingxiao Liu, Guodong Chen, Rie Nakata, Charuleka Varadharajan

View Original ↗
AI 導讀 technology AI 重要性 4/5

LBNL 團隊運用 Google AlphaEarth 的 64 維度地理空間向量,成功在美國本土預測深達 6000 公尺的地底溫度,誤差僅 6.0°C。

  • AlphaEarth 模型能捕捉地表植被與地形脈絡,為地底觀測提供非線性預測基準。
  • 結合地理向量與 XGBoost 模型,使淺層地震波速預測的均方根誤差降低 24.3%。
  • 深度神經網路利用衛星特徵繪製全美地熱圖,揭示傳統內插法無法呈現的斷層熱梯度。

測量地表下深處的溫度與地質結構,過去往往仰賴耗資龐大且分布不均的地質鑽孔與地球物理探勘。然而,勞倫斯柏克萊國家實驗室(LBNL)的最新研究證實,透過分析地表的地理特徵,我們能精準推算難以觀測的地底狀況。研究團隊利用 Google AlphaEarth Foundations 產生的 64 維度地理空間嵌入向量,在全美國本土預測 1000 至 6000 公尺深度的地底溫度,成功達到 R² = 0.919 與均方根誤差僅 6.0°C 的表現,證明衛星遙測資料與人工智慧結合,足以解決地質科學長期面臨的數據稀缺挑戰。

突破物理觀測限制的 64 維度 AlphaEarth 向量

Google Earth Engine 釋出的 AlphaEarth Foundations 是一種地理空間基礎模型,它並非單純依賴幾項人工挑選的預測指標,而是將光學影像、雷達、地形、光達(LiDAR)與氣候重新分析資料,濃縮進一個全球性的「嵌入場域(embedding field)」。在這個場域中,每個地表位置都會在 10 公尺的空間解析度下,被賦予一組 64 維度的向量,代表該地區在選定年度內的綜合地表狀態與長期景觀結構。

地表特徵與地底結構之間存在著間接但深刻的物理關聯。雖然 AlphaEarth 無法直接「看透」地底的地震波速或深層溫度,但盆地沉積、岩石風化、植被分布、水系組織與地表熱異常等現象,都會在多源遙測觀測中留下長期印記。研究團隊將這套向量應用於 1 公里至 20 公里的有效網格範圍內,將其視為景觀脈絡的統計描述,而非單一像素的反射率測量。

這套方法最大的實務優勢,在於無須投入龐大算力去重新訓練基礎模型本身。科學家可以直接提取固定的嵌入向量,並針對特定預測任務,在表層疊加任務專屬的學習演算法。本篇論文即利用此框架,針對美國本土的淺層地震波速與深層地底溫度進行大規模迴歸預測,測試通用地理空間表示法在不同地質與物理環境下的特徵轉移能力。

結合 XGBoost 預測淺層地震波速 VS30

在地震工程領域,地表下 30 公尺的平均剪力波速(VS30)是評估近地表硬度、場址放大效應與地震危害的關鍵指標。過去的區域性 VS30 製圖高度依賴地形坡度作為替代變數,因為高低起伏往往與沉積環境或岩床硬度存在經驗法則上的關聯。然而,在美國奧勒岡州海岸等複雜地形中,低平的沙丘、海洋階地與相鄰的山坡交錯,單靠地形坡度容易產生嚴重誤判,抹平了局部的強烈物質對比。

實驗涵蓋美國本土 2886 個測站,將 AlphaEarth 向量搭配地形坡度對數值(log-slope)與代表板塊構造狀態(西經 105 度為界的二元指標)等變數,輸入至經過超參數微調的 XGBoost 模型進行推論。結果顯示,將 AlphaEarth 納入特徵集後,測試集的均方根誤差(RMSE)從傳統僅依賴坡度模型的 166.6 m/s 大幅降至 126.1 m/s,改善幅度達 24.3%;平均絕對誤差(MAE)也從 100.9 m/s 下降至 66.2 m/s

模型內部的特徵重要性分析(Feature importance analysis)進一步揭示了這套混合方法的運作機制。雖然地形坡度依然是最關鍵的單一變數,但 AlphaEarth 的多個嵌入維度也貢獻了極高的預測權重。這證明基礎模型並非單純複製地形高程資訊,而是捕捉到了風化歷史、土壤濕度與地表粗糙度等坡度無法涵蓋的環境脈絡,有效提升了區域性地震危害評估的空間解析度與物理合理性。

從地表推算 6000 公尺深處的熱能分布

相較於淺層地質結構,地底深處的溫度分布對於地熱資源評估、碳封存選址及碳氫化合物探勘至關重要,但鑽孔數據的分布極度不均勻。研究團隊將美國本土劃分為 2 萬 971 個邊長 20 公里的標準網格,並整合南方衛理會大學(SMU)地熱實驗室與美國地質調查局等超過 40 萬筆井底溫度紀錄,試圖建立從地表看透深層熱能的非線性映射。

預測架構採用了包含三個隱藏層(分別為 128、64 與 32 個神經元)的多層感知器(MLP,一種前饋人工神經網路),結合批次標準化與 Dropout 機制以防止過度擬合,將提取自 Google Earth Engine 的 64 維度向量轉換為單一純量溫度輸出。這套深度神經網路在持留測試集上展現了極高的準確度,不僅判定係數(R²)高達 0.919,預測 0 至 6000 公尺深度的溫度誤差也僅有 6.0°C

生成的全美連續地底溫度地圖,精準反映了板塊構造的宏觀熱力對比。在盆地與山脈區及黃石熱點等構造活躍的美國西部,地殼變形與熱流較高,模型成功預測了異常溫暖的地底環境;反之,在中西部上游與新英格蘭等穩定的古陸塊(Craton)區域,預測溫度則顯著較低。這項技術能解析出單靠傳統地質內插法無法呈現的局部細節,例如橫跨斷層邊界盆地的劇烈熱梯度變化。

空間特徵轉移在資料稀缺區的實務挑戰

比較淺層波速與深層溫度兩項應用可以發現,預測目標的物理特性決定了基礎模型依賴的特徵結構。淺層的地震波速是一種力學指標,需要明確的領域共變數(如地形坡度)來穩定迴歸模型的推論方向;而深層的熱力學結構因具有更廣泛的空間連貫性,且受植被物候、地表熱異常等多重因素交織影響,因此極度依賴 AlphaEarth 向量維度間的非線性交互作用。

儘管成果豐碩,實務擴張仍面臨觀測數據地理分布不均的挑戰。無論是 VS30 測站還是地熱鑽井,歷史樣本多半集中於加州、活躍能源開採區或重點都會走廊。研究團隊坦承,目前的隨機拆分驗證在某種程度上,仍帶有在「觀測密集區內插」的統計成分,若要確保模型在資料極度稀缺的未知地帶也能穩定發揮,未來需要導入空間區塊交叉驗證等更嚴苛的區域外推評估標準。

將衛星影像轉化為探索地底的特徵探測器,為地球科學帶來了成本極低的廣域區域探勘潛力。這套無需大規模現場鑽探的數位篩選機制,不僅適用於地球上的工程與能源基礎設施規劃,未來更有機會結合重力、磁力等其他地球物理限制條件,甚至延伸至火星或金星等極度缺乏實測數據的行星表面探測任務中。

地理空間基礎模型成功將地表綜合景觀轉化為地底環境的統計約束條件,為地熱探勘與地震危害評估提供了一套低成本的高解析度預測框架。

Abstract

Subsurface properties are essential for hazard assessment, energy and environmental management, and infrastructure resilience, but direct observations are sparse and uneven, motivating the use of surface observations as indirect constraints. Here we explore whether AlphaEarth embeddings can be applied to subsurface estimation despite indirect and non-unique physical links between surface and depth. We test this idea in two conterminous U.S. applications: shallow seismic site characterization using $V_S 30$ with embedding features alone and with conventional covariates (topographic slope and a tectonic-status indicator), and subsurface temperature reconstruction using embedding-based nonlinear regression. Across both applications, embedding-informed models recover spatially coherent, physically plausible patterns and outperform simpler baselines. The comparison also highlights a key difference: domain covariates materially stabilize $V_S 30$ regression, whereas temperature mapping relies primarily on embedding features. Overall, the results support the feasibility of foundation-model surface representations for regional surface-to-subsurface inference, while emphasizing the need for robust spatial validation under heterogeneous labels and uneven data coverage.