PISP: Projected-Space Inference of Stellar Parameters

Jun-Chao Liang, Yin-Bi Li, A-Li Luo, Shuo Li, Xiao-Xiao Ma, et al.

View Original ↗
AI 導讀 technology AI 重要性 4/5

將 25 維恆星參數映射至投影空間,PISP 框架使推論效率提升 4 倍,豐度誤差降低 0.72 dex。

  • 運用投影空間破除參數耦合,PISP 為巨量天文光譜推論樹立了高精度與高效率的新標竿。
  • 開發專屬雙推論引擎,支援 GPU 批量平行處理達一萬筆光譜數據。
  • 分析 72 萬筆 APOGEE 光譜,整體推論效率提升 4 倍,且誤差顯著降低。

面對 722,896APOGEE 觀測光譜與 25 維恆星參數,傳統演算法常因參數高度相關而陷入收斂泥淖。團隊提出的「投影空間恆星參數推論」(PISP)框架,成功將多種元素豐度推論誤差降低達 0.72 dex,並實現近 4 倍的效率提升,替未來的巨量天文觀測數據處理開闢新路徑。

突破 25 維恆星參數相關性的 PISP 框架

當代大型巡天計畫如 SDSSLAMOSTGALAH 持續產出海量數據,使得推論恆星有效溫度($T_{\text{eff}}$)、表面重力($\log g$)與數十種元素豐度成為核心任務。研究顯示,這些高達 25 維度的恆星參數之間存在強烈的物理與統計耦合關係。例如在 F 型與 G 型矮星樣本中,氧、矽、鈣等多種元素的豐度會與鐵、鎂等參數呈現剛性連動。

傳統資料處理流程多半直接在原始高維空間內求解,未能明確保留並處理這些相關性。這導致演算法在遭遇強烈耦合的參數時,容易出現收斂速度下滑與推論精度惡化的現象。為突破此一限制,研究團隊提出 PISP 技術,核心概念是先引入正交投影基底,再將恆星參數映射為投影係數,藉此繞開高維度空間的冗餘維度。

引入 PCA 與主動子空間建構的四種策略

模型提供了兩種基底建構途徑,包含 PCA(主成分分析,統計上去除相關性)以及 AS(基於梯度尋找高敏感度方向)。在確立基底後,系統會搭配兩種最佳化策略進行求解。第一種是 Non-L1 策略,直接對使用者指定的截斷維度進行係數最佳化;第二種則是 L1 策略,在完整的 25 維度投影空間中加入 L1 正規化,藉此自適應地篩選出關鍵的投影方向。

綜合上述選項,共衍生出 PCA-Non-L1AS-Non-L1PCA-L1AS-L1 四套推論變體。值得注意的是,這些策略全數部署於推論階段,可直接作用於預先訓練好的光譜模擬器(Spectral Emulator)上,無須消耗額外資源重新訓練模型。

開發 CurveFit 與 Adam 引擎支援萬筆批量運算

針對不同的運算環境與資料規模,團隊分別實作了 PISP-CurveFitPISP-Adam 兩種底層引擎。PISP-CurveFit 專為 CPU 環境與單筆光譜快速反演而生,運用 Joblib(支援多核心平行的套件)進行多執行緒處理。每筆正規化後的觀測光譜會與官方像素遮罩共同儲存於獨立的 .npz 檔案中,以最大化 I/O 吞吐量。

另一個 PISP-Adam 則是基於 PyTorch 框架開發,鎖定 GPU 環境的大規模巡天數據處理。系統會將每兩萬筆光譜打包成單一 .pt 張量檔,並透過 Adam 演算法進行批量推論。為了在運算效率與 GPU 記憶體容量間取得平衡,PISP-Adam 會依照光譜模擬器的架構自動調整平行處理數量。

當採用 FNN(全連接架構的神經網路)作為模擬器時,單次批量設為 10,000 筆;若切換至 ResNet(加入跳躍連接的殘差網路)時,批量則下調至 5,000 筆。在最佳化過程中,目標函數不僅計算模型預測與觀測光譜間的誤差,更會動態引入 L1 正規化項以控制參數稀疏性。當達到目標迭代次數或函數變動量低於臨界值時,系統便會利用有限差分法估算雅可比矩陣,進而精準輸出參數誤差。

導入雙重遮罩機制強化真實光譜正規化

在實際展開高維度推論前,觀測光譜的資料前處理是決定最終成敗的關鍵。為了消彌 APOGEE 實測數據與合成光譜間的基線形狀落差,團隊採用了與知名資料驅動模型 The Cannon 相同的正規化技術,透過四階多項式擬合三個觀測波段的虛擬連續譜(Pseudocontinuum)。

同時,為了確保光譜擬合的可靠性,系統引入了嚴密的雙重遮罩策略。第一層遮罩參考了前一代模型 The Payne 的設定,直接剔除合成與觀測落差超過 2% 的極端像素;第二層則套用官方提供的儀器異常標記。兩者聯集後形成的二值化遮罩矩陣,成功將演算法的注意力集中在最具物理意義的有效波段上,大幅提升了後續矩陣運算的穩定度。

實測 722,896 筆 APOGEE 光譜的誤差收斂成效

研究團隊動用了 14,623Kurucz 合成光譜與高達 722,896APOGEE DR17 實測光譜進行廣泛驗證。在合成數據集測試中,PCA-L1 策略展現出最強適應力,成功將 20 種元素豐度中的 12 種推論誤差標準差降低了至少 0.01 dex。其中包含氮、氧、鈉、鈷、磷、釩與銅等元素的降幅更是達到 0.050.72 dex,徹底超越傳統的直接搜尋法。

而在真實觀測光譜的考驗下,PCA-Non-L1 則成為最佳解答。該策略不僅將有效溫度誤差標準差縮減超過 30 K,在 17 種觀測元素中也有 9 種獲得 0.01 dex 以上改善。受惠於投影空間的降維特性,其整體推論效率更是直接拔升了近 4 倍。

建立大型巡天計畫的 25 維度最佳化基準

將高維度最佳化理論中的線性與非線性嵌入概念引入天文領域,有效舒緩了參數維度過剩的問題。相較於讓演算法在標準化且充滿耦合的 25 維原始空間中盲目摸索,正交轉換不僅提供了統計意義上的去相關性,還引導運算資源集中在光譜反應最劇烈的特徵方向上。

特別是在後續誤差評估機制上,PISP 直接在收斂點展開雅可比矩陣估算,省去了重複抽樣的龐大計算開銷。這項推論邏輯的翻新,為未來處理 GaiaDESI 等新一代巡天儀器的兆級數據,奠定了兼具精準度與運算經濟性的關鍵基礎。

透過投影空間破除參數耦合,PISP 為巨量光譜推論樹立了高精準且極具效率的全新基準。

Abstract

To improve the accuracy and efficiency of high-dimensional stellar parameter inference in large spectroscopic datasets, we propose a projection-assisted parameter-inference framework -- Projected-Space Inference of Stellar Parameters (PISP). PISP constructs an orthonormal basis and optimizes in the projected space, reducing the impact of parameter correlations on inference. The basis is constructed using either principal component analysis (PCA) or the active-subspace (AS) method and is combined with two inference strategies -- Non-L1, which optimizes the projection coefficients for a user-specified projected dimensionality, and L1, which introduces L1 regularization in the full projected space to adaptively select projection directions -- yielding four strategies: PCA-Non-L1, AS-Non-L1, PCA-L1, and AS-L1. For different computational scenarios, we implement two versions: PISP-CurveFit for fast single-spectrum inference and PISP-Adam for large-scale GPU-parallel inference. Using a fully connected neural network and a residual network as spectral emulators, we evaluate PISP on Kurucz synthetic spectra and on $722{,}896$ APOGEE DR$17$ observed spectra. Compared to the baseline strategy, PISP improves inference accuracy for multiple parameters across all emulator-optimizer combinations. In synthetic data, PCA-L1 performs best, reducing the standard deviation of differences ($σ(Δ)$) by at least $0.01$ dex for $12$ of $20$ elemental abundances, with [N/H], [O/H], [Na/H], [Co/H], [P/H], [V/H], [Cu/H] showing $0.05$--$0.72$ dex reductions. In observed data, PCA-Non-L1 reduces $σ(Δ)$ by $>30$ K for effective temperature and by at least $0.01$ dex for $9$ of $17$ elemental abundances, with [O/H], [Na/H], [V/H] showing $0.05$--$0.20$ dex reductions, while achieving a $\sim$$4\times$ efficiency gain, slightly outperforming PCA-L1.