Distributed Quantum-Enhanced Optimization: A Topographical Preconditioning Approach for High-Dimensional Search

Dominik Soós, Marc Paterno, John Stenger, Nikos Chrisochoides

View Original ↗
AI 導讀 technology infrastructure 重要性 4/5

50 量子位元先定位吸引盆再 GPU 精煉,D-QEO 在 d=10 的 260 億局部最小值問題成功率超越純古典算法。

  • 50 量子位元切成 10 個 5 位元子電路並行探測全局空間,量子熱啟動削減後續 BFGS 所需迭代次數。
  • 格距過粗(5 量子位元)使 Himmelblau 的 900 次全偏向 Min 2;精化至 10 位元後四個最小值均被找到。
  • CVaR(α=0.1)使量子態聚集到最低能量盆;可分函數令 10 個子電路完全解耦,無需跨電路糾纏。

10 維 Rastrigin 函數有約 260 億個局部最小值,用 10 萬個粒子的純古典算法在 d=10 時正確解數量趨近於零。本文提出 D-QEO(Distributed Quantum-Enhanced Optimization,分散式量子增強優化)框架:不讓量子電腦直接找精確最優解,而是用它作「地形預處理器」——先圈出最有潛力的吸引盆,再交給 GPU 進行精確局部收斂,規避古典算法的指數失敗率。

維度詛咒:d=10 的 260 億局部最小值讓古典算法崩潰

Rastrigin 函數在 [-5.12, 5.12] 範圍內有 11^d 個局部最小值,d=10 時約 260 億個。論文展示,當維度從 2 增加到 10、粒子數固定在 10 萬,找到全局最小值的正確解數量呈指數衰減,d=10 時幾乎為零。單純增加算力或粒子數無法解決這個問題,本質原因是粒子落入全局吸引盆的機率隨維度指數下降。

Zeus 框架(PSO 粒子群算法 + BFGS 准牛頓法 + 自動微分)代表現有 GPU 加速古典優化的最高水準:以 PSO 做全局探索,以 BFGS 做局部精煉,在 GPU 上並行處理數萬個起始點。儘管如此,10 萬個粒子在 10 維問題上的成功率依然崩潰——原因不在算法品質,而在於成功率由「落在全局吸引盆內的機率」決定,而這個機率隨維度指數衰減。

NOvA 中微子振盪實驗是具體案例:用剖面 Feldman-Cousins 技術生成一張二維置信等高線需要 2,000 萬核心小時。未來 DUNE 實驗要達到 4-sigma 置信水準,計算量預計增加 40 倍以上。量子計算引入指數大的 Hilbert 空間,理論上可對整個優化景觀做全局操作,但直接翻譯古典優化到量子域有「貧瘠高原」(barren plateau,梯度指數消失)和高採樣成本兩大障礙,D-QEO 的解法是明確分工:量子做粗粒度全局普查,GPU 負責精細局部精煉。

D-QEO 架構:50 量子位元探測 2^50 搜索空間

D-QEO 採用維度映射(register-based mapping)而非粒子映射:10 個維度各自分配一個 5 量子位元暫存器,共 50 量子位元。每個子暫存器探索 2^5=32 個離散格點,整個張量積空間代表 2^50 個離散搜索點,完整的全局搜索空間在單個量子波函數中一次探測完畢。

量子電路使用硬體效率型 Ansatz(HEA):初始 Hadamard 門建立均勻疊加態,接 3 層參數化 Ry 旋轉加環狀 CNOT 糾纏環。訓練目標採用 CVaR(Conditional Value-at-Risk,條件風險值):從 M=1000 次採樣的能量中取最低 10%(α=0.1)的平均值,使量子態自然「堆疊」到最低能量本徵態附近,對應古典景觀中最有潛力的吸引盆。訓練收斂後,波函數輸出高品質的種子點,古典精煉階段以 BFGS 准牛頓法結合 CUDA-Q 並行執行。

二進制編碼過程將連續變量 x 離散化為 N 量子位元的 2^N 個格點,用 Pauli-Z 算符構造「數算符」把古典目標函數翻譯成量子 Hamiltonian。由於 Hamiltonian 在計算基底下是對角矩陣,其基態對應唯一最低能量比特串——正是古典離散搜索空間中的全局最小值座標。量子熱啟動大幅削減所需的 BFGS 迭代次數,論文以指數級的搜索空間縮減量化這一優勢。

可分函數的電路切割:繞過指數級張量縫合開銷

D-QEO 目前聚焦可分函數(separable functions,即可寫成各維獨立之和的函數)。Rastrigin 和本文採用的可分 Ackley 函數均屬此類。可分性使 10 個 5 量子位元子電路完全解耦——不需要跨電路糾纏,可直接利用 CUDA-Q 並行執行,完全繞過傳統電路切割後重建全局概率分布所需的古典張量縫合(classical tensor network knitting)指數開銷。

可分 Ackley 函數還有一個特別的測試意義:其全局最小值位於原點,而 |x_i| 項使函數在原點不可微分,純梯度法在接近最優解時受阻。D-QEO 的量子預處理在這種非光滑景觀中依然有效,為非可微函數的量子優化提供了初步實驗證據。

Himmelblau 函數量子化偏差:5 對比 10 位元的精度分歧

Himmelblau 函數有四個數學上完全等價的全局最小值(能量均為 0),用於測試量子化偏差。5 量子位元每維度(格距約 3.2 單位)時,粗糙採樣使 Min 1、3、4 的最近離散格點落在各自山谷的陡坡上,離散能量分別高達約 50.9、14.6 和 58.6,遠高於 Min 2 的約 6.9——結果是全部 900 次成功運行全部坍縮到 Min 2(比特串 010110),三個等價全局最小值完全被忽略。

增加到 10 量子位元每維度(1024 個格點)後,四個最小值分別被找到 220、310、86、284 次,接近古典 Zeus 算法的均衡分布(204、280、241、175 次)。論文指出,對非可分函數,增加每維量子位元不是通用解法:總量子位元隨維度指數增長,很快超過近期 NISQ 硬體的相干性與連通性限制,這個瓶頸直接推動了後續電路切割與張量縫合的研究路線。

Himmelblau 函數四個全局最小值的識別次數比較(共 900 次實驗)
算法/設置Min 1Min 2Min 3Min 4
古典算法 (Zeus)204280241175
量子混合(5 量子位元/維)090000
量子混合(10 量子位元/維)22031086284

NISQ 時代的適用邊界與未來擴展方向

D-QEO 的現有框架明確限定於可分函數,弱耦合與部分耦合的非可分問題留待後續工作。論文提出一個值得關注的猜想:提高量子位元解析度可以「以保持相干的么正量子操作替代耗散的古典迭代」,潛在降低全局搜索的能量消耗——但這仍是待驗假設,需要真實硬體實驗確認。CUDA-Q 的選用使框架可在模擬器與真實量子硬體間無縫切換,為部署到量子-GPU 異構超算叢集預留了介面。論文把 NOvA / DUNE 中微子參數搜索作為明確動機目標,D-QEO 的設計方向是讓那些在純古典架構下計算不可行的高維科學計算問題,在混合量子-HPC 架構下逐步可行。

QPU 做粗糙盆地定位、GPU 做精確收斂——50 量子位元的地形普查打破了 d=10 時古典算法的指數失敗率。

Abstract

Optimization problems become fundamentally challenging as the number of variables increases. Because the volume of the search space grows exponentially, classical algorithms frequently fail to locate the global minimum of non-convex functions. While quantum optimization offers a potential alternative, mapping continuous problems onto near-term quantum hardware introduces severe scaling limits and barren plateaus. To bridge this gap, we propose the Distributed Quantum-Enhanced Optimization (D-QEO) framework. Instead of forcing the quantum processor to find the exact minimum, we use it simply as a topographical preconditioner. The QPU maps the landscape to locate the most promising basin of attraction, generating high-quality seed points for a classical GPU-accelerated solver to refine. To make this approach viable for utility-scale problems, we exploit the mathematical structure of separable functions. This allows us to cut a 50-qubit (i.e., $2^{50}$) global search space into independent and manageable sub-spaces using 5-qubit subcircuits. By executing these fragments concurrently with CUDA-Q, we completely bypass the overhead of cross-register entanglement and classical tensor knitting for separable functions. Benchmarks on the 10-dimensional Rastrigin and Ackley functions show that D-QEO prevents the exponential failure rates observed in purely classical algorithms. Furthermore, this quantum warm-start significantly reduces the number of classical BFGS iterations required to converge, providing a highly practical blueprint for utilizing near-term quantum resources in complex global search.