Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

Kunlin Wu, Yanning Wang, Haofeng Tan, Boyi Chen, Teng Fei, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

Geo2Sound 框架首創將衛星影像轉化為高還原度環境音景,FAD 品質指標達創紀錄 1.765。

  • 克服靜態俯視圖的聲學模糊性,將 FAD 品質指標大幅降低至 SOTA 水準的 1.765。
  • 採用「先擴展多組語意假設、後進行地理對齊」策略,有效從候選音訊篩出最佳空間解答。
  • 釋出首個專用基準 SatSound-Bench,收錄跨越 10 國、逾 2.8 萬組對齊影像與實地音訊。

突破傳統視覺物件轉音訊的視角限制,研究團隊提出的 Geo2Sound 框架首次實現了將靜態衛星影像轉化為高還原度的地理環境音景(Soundscape)。該研究不僅將 Fréchet Audio Distance(FAD,用於評估生成音訊品質與真實分佈差異的指標)降至創紀錄的 1.765,較現有最強影像轉音訊基準模型大幅領先 50.0%,更在人類聽覺盲測中將聲音真實度推高 26.5%,成功解決高空俯視圖難以對應真實空間聲學結構的技術瓶頸。

俯視圖轉音訊面臨的 3 大空間與語意挑戰

過去的影像轉音訊(Image-to-Audio)與多模態轉音訊(Multimodal-to-Audio)模型,多半針對地面視角的場景進行開發。這類圖像通常包含視覺上明確的主要聲源,例如行駛中的車輛或鳴叫的動物。然而,將輸入來源替換為全球覆蓋率極高的高解析度衛星影像時,模型立刻遭遇三大難題。首先是缺乏結構化的地理空間語意,衛星影像將多樣的環境元素壓縮進由上而下的二維空間佈局,難以直接從原始視覺模式推斷出具備聲學意義的場景描述。

其次是一對多的聲學模糊性(One-to-many acoustic ambiguity)。不同於地面觀察能藉由局部外觀與時間動態線索來判斷聲音,靜態的俯視圖往往對應多種合理的情境。例如,一張顯示工業區屋頂的衛星照片,實際上可能是一座機器轟鳴的運作中工廠,也可能是一座安靜無聲的廢棄倉庫。若沒有多樣化的聲學語意解釋,通用型生成模型往往只會產出籠統或完全不符的音訊。

第三項挑戰則是聲音生成極度依賴更廣泛的地理空間脈絡。環境音景不僅受局部外觀影響,還被周遭的土地利用狀態、道路結構、建築密度與人類活動強度所形塑。視覺上相似的兩個局部區域,可能因為所處的大地理環境不同而擁有截然不同的聽覺特徵。現有框架由於缺乏這類宏觀脈絡的建模能力,難以在龐大的地理尺度上生成具備空間合理性的音景。

Geo2Sound 結合 DINOv3 萃取地理屬性

為了解決上述限制,研究團隊提出 Geo2Sound 框架,其核心運作機制可拆解為三個模組:結構化地理空間屬性建模、語意假設擴展,以及地理聲學對齊。在第一個模組中,系統不依賴人工標註,而是直接透過預訓練的視覺變換模型 DINOv3 提取衛星影像的密集區塊嵌入特徵。這些特徵會透過 K-means 演算法進行分群,並計算包含 RGB/HSV 統計數據、灰階紋理線索與邊緣密度等視覺描述子。

取得分群特徵後,系統使用啟發式評分產生偽標籤,藉此訓練一個兩階段的隨機森林分類器。分類器在推論階段會輸出多種地理類別的機率,包含植被、水域、建築區與道路等。這些機率會依據面積權重進行聚合,轉換成能概括整個場景結構組成的影像層級「地理屬性」。為了進一步捕捉場景的空間多樣性,模型還會計算這些佔比的夏農熵(Shannon entropy),形成一個高度濃縮的 5 維地理描述向量。

這套屬性建模流程成功將原本隱含在像素中的高空視覺特徵,轉換為具有聲學意義的生成條件。與直接將影像丟入生成模型相比,這種先提取植被覆蓋率、道路密度等具體空間指標的做法,為後續的音景推論提供了更穩固的結構化基礎,確保生成的聲音不會脫離當下的地貌本質。

擴展 6 組語意假設與 SatSound-Bench 對齊

針對一對多的聲學模糊性問題,Geo2Sound 導入了「語意假設擴展」策略。系統不再依賴大型語言模型(LLM)產生的單一圖片說明文字,而是針對同一個空間場景建構出包含多種聲音導向的描述假設。在實作中,每個輸入場景會衍生出 3 種提示變體(分別對應基本、相對安靜、相對吵雜的聲學條件),接著交由生成模型產出 6 組合理的候選音訊。這種保留多樣性的做法,能有效避免模型在初始階段就錯失正確的聲景可能。

為了從這 6 組候選音訊中挑出最符合地理脈絡的結果,團隊設計了「地理聲學對齊模組」。該模組會將前面萃取出的結構化地理屬性,透過一個輕量級投影網路映射到聲學嵌入空間中,作為一個查詢向量。接著,系統會計算該向量與所有候選音訊之 CLAP(一種對齊文字與音訊特徵的預訓練模型)嵌入特徵之間的餘弦相似度,並選出得分最高的音訊。為提升穩健性,高維度的 CLAP 特徵會先透過主成分分析降維至 32 維子空間。

支撐這套對齊機制的關鍵,是團隊同步發布的 SatSound-Bench 基準資料集。這是全球首個專為衛星影像轉音景任務打造的大型資料集,包含 28,630 組對齊的衛星影像、文字與真實環境音訊。其中大量數據來自團隊利用多軌錄音機與全指向麥克風,在中國、泰國、馬來西亞等 10 多國實地採集的田野數據,大幅擴展了地理與聲學的訓練多樣性。

Make-An-Audio 2 達成 1.765 FAD 領先指標

在具體生成骨幹的選擇上,研究團隊在相同的衛星影像處理流程下,測試了包含 AudioLDM、Tango2 等 8 種主流文字轉音訊生成器。實驗顯示,Make-An-Audio 2 展現出最均衡且強大的性能,不僅取得最低的 FAD(1.765)與最低的 KL 散度(0.098),其特徵分佈重疊率(OVL)也高達 0.847。雖然 Tango2 在地理對齊分數上略高,但 Make-An-Audio 2 在特徵空間與類別機率上,與真實環境音景最為貼近。

將完整的 Geo2Sound 框架與現有的影像轉音訊(如 Seeing and Hearing)及多模態模型(如 AudioGenie)比較時,優勢極為明顯。強勢基準模型 AudioGenie 在人類評估的三項指標(自然度 MOS-A、場景對應度 MOS-S、環境沉浸感 MOS-E)分別僅獲 2.83、2.69 與 2.88 分;而 Geo2Sound 則以 3.583.413.66 分全面勝出,證明其透過地理屬性過濾候選音訊的策略,確實能顯著提升人類聽覺感知的合理性。

消融實驗進一步證實了各模組的必要性。若拔除語意假設擴展模組,系統產出的音訊在語意對齊與分佈相似度上皆會衰退,顯示「先產生多樣化假設,再用地理先驗進行約束」是處理衛星影像聲學轉換的最佳解法。透過這項技術,未來的數位孿生城市與虛擬實境應用,將能夠直接透過地圖圖資自動生成高度逼真且符合空間邏輯的全域環境音效。

透過分離音訊候選生成與地理屬性約束,Geo2Sound 成功證明結構化空間先驗是跨越衛星視覺與聽覺鴻溝的關鍵。

Abstract

Recent image-to-audio models have shown impressive performance on object-centric visual scenes. However, their application to satellite imagery remains limited by the complex, wide-area semantic ambiguity of top-down views. While satellite imagery provides a uniquely scalable source for global soundscape generation, matching these views to real acoustic environments with unique spatial structures is inherently difficult. To address this challenge, we introduce Geo2Sound, a novel task and framework for generating geographically realistic soundscapes from satellite imagery. Specifically, Geo2Sound combines structural geospatial attributes modeling, semantic hypothesis expansion, and geo-acoustic alignment in a unified framework. A lightweight classifier summarizes overhead scenes into compact geographic attributes, multiple sound-oriented semantic hypotheses are used to generate diverse acoustically plausible candidates, and a geo-acoustic alignment module projects geographic attributes into the acoustic embedding space and identifies the candidate most consistent with the candidate sets. Moreover, we establish SatSound-Bench, the first benchmark comprising over 20k high-quality paired satellite images, text descriptions, and real-world audio recordings, collected from the field across more than 10 countries and complemented by three public datasets. Experiments show that Geo2Sound achieves a SOTA FAD of 1.765, outperforming the strongest baseline by 50.0%. Human evaluations further confirm substantial gains in both realism (26.5%) and semantic alignment, validating our high-fidelity synthesis on scale. Project page and source code: https://github.com/Blanketzzz/Geo2Sound