Enhancing Neural-Network Variational Monte Carlo through Basis Transformation
NNVMC 基底轉換新技術:僅引入單一空間參數,其能量優化效果即超越擴充一萬個模型參數。
- 放棄增加模型複雜度,改以引入單一空間參數 α 的非正交高斯基底轉換,大幅降低變分能量。
- 採用雙階段最佳化策略,先預訓練波函數再微調基底參數,成功避免梯度雜訊導致的運算崩潰。
- 在 3DHEG 系統實測中不僅超越萬級參數擴充效果,更將費米液體至維格納晶體的相變臨界點修正了 0.1。
復旦大學研究團隊近期提出針對神經網路變分蒙地卡羅(NNVMC)的基底轉換新技術,僅透過引入一個可學習的空間參數 α,就能顯著降低變分能量。在三維均勻電子氣(3DHEG)測試中,這項單一參數帶來的能量改善幅度,甚至超越在 FermiNet 架構中硬加上 10,000 多個額外參數的效果。這項研究證明,改變目標基態的物理表現形式,遠比無止盡擴張神經網路模型體積更具運算效率。
突破神經網路變分蒙地卡羅的參數瓶頸
解決量子多體問題一直是凝聚態物理學的核心挑戰。傳統的張量網絡方法在高維度系統面臨運算成本暴增的困境,而量子蒙地卡羅法雖精準卻受限於費米子符號問題(Fermion sign problem)。近年來,神經量子態(NQS)的崛起讓神經網路變分蒙地卡羅(NNVMC)成為計算連續空間費米子系統的強大工具,包含 FermiNet 與 PauliNet 等神經網路架構已達成了最先進的精確度。
然而,要進一步提升這些系統的精確度,傳統做法多半是直接增加變分參數的數量以擴大變分流形。這種暴力擴增不僅大幅增加運算負擔,更容易引發過度擬合(Overfitting),導致精準度停滯甚至下降。更核心的問題在於,盲目增加神經網路參數缺乏明確的物理意義,這凸顯了當前量子多體計算領域迫切需要一種既有效率又具備物理基礎的改良策略。
引入單一空間參數的非正交高斯基底轉換
為了尋找更具物理意義的改良途徑,研究團隊放棄了擴增試探波函數(Ansatz)複雜度的常規路線,轉而從哈密頓量(Hamiltonian)特徵值問題的表象基底著手。團隊在連續空間中引入了一種非正交的高斯基底,並賦予其單一個可學習參數 α。
這個參數負責控制基底的空間局域性:當 α 值極大時,高斯核會逼近狄拉克 δ 函數,退化回標準的實空間基底。在倒空間(Reciprocal space)中,這等同於替波函數套用了一個低通濾波器,能有效壓抑波函數的高頻成分。透過將目標基態重塑成更容易被神經網路表達的結構,這種基底轉換不但維持了運算的穩定性,還能無縫整合到現有的任何神經量子態架構中。
雙階段策略克服基底非局域性引發的梯度雜訊
由於採用了非正交基底,能量期望值的計算分母不再恆正,無法直接進行標準的蒙地卡羅採樣。團隊利用高斯重疊矩陣的正定特性構建了全新的正向採樣分佈。但若同時對波函數參數與 α 進行最佳化,會引發嚴重的數值不穩定現象。當 α 變小時,採樣分佈會變得高度非局域化,導致梯度估計出現巨大的統計誤差,進而使得最佳化過程完全崩潰。
為了解決這個互相牽制的惡性循環,團隊設計了雙階段訓練框架。第一階段先將 α 固定在極大值進行波函數預訓練,此階段等同於傳統的實空間 VMC 運算,確保初步收斂;第二階段則凍結已經訓練好的波函數參數,專注於更新 α。這種做法能有效把初始波函數拉向精確基態,接著再透過微調基底,來縮小目標波函數在空間中的擬合距離。
14與36電子3DHEG系統的實測能量增益
在基準測試方面,研究人員選擇了三維均勻電子氣(3DHEG)模型,並分別在無極化的 14 電子系統套用 FermiNet,以及在 36 電子系統套用訊息傳遞神經網路(MPNN)。測試結果顯示,無論使用哪種神經網路架構,基底轉換在所有測試的維格納-賽茲半徑(Wigner-Seitz radius, r_s)範圍內,都穩定降低了整體的變分能量。
最驚人的是模型效率的展現:在 r_s = 5、10、20 的參數設定下,單單加入一個 α 參數所換來的能量下降幅度,竟然贏過了將 FermiNet 的斯萊特行列式(Slater determinants)數量從 1 增加到 4(等同硬生生增加破 10,000 個參數)。此外,研究也發現當神經網路本身的基準線越精確時,需要靠基底轉換來修正的幅度就相對變小,展現了兩種優化路徑的互補性。
重新界定費米液體至維格納晶體的相變臨界點
除了顯著降低能量,這套轉換技術也具備釐清相圖邊界的實用價值。在針對 MPNN 架構的測試中,研究團隊使用了平面波(PW)與高斯軌道(GO)兩種參考態,來分別模擬費米液體(FL)與維格納晶體(WC)相。透過比較兩者的能量交叉點來判定相變位置時,基底轉換對 PW 參考態產生的能量降幅大於 GO 參考態,使得最終估算的 FL-WC 相變點向較大的 r_s 方向偏移了約 0.1。
這項結果揭示了一條全新的研究路徑。透過讓目標基態變得更容易學習,不只可以提升計算精度,未來在處理包含超導現象等具備微小能量差的競爭相態系統,或是涉及非局域贗勢(Nonlocal pseudopotentials)的問題時,這套基底工程策略有望對物理相圖帶來更具決定性的修正與啟發。
提升神經網路算力的解答未必是無止盡堆疊參數,從物理層面重塑目標基態的表現形式,將是突破量子多體計算精度天花板的關鍵捷徑。