Federated Learning with Quantum Enhanced LSTM for Applications in High Energy Physics

Abhishek Sawaika, Durga Pritam Suggisetti, Udaya Parampalli, Rajkumar Buyya

View Original ↗
AI 導讀 technology AI 重要性 4/5

僅需不到 300 參數,量子增強模型即達成大模型準確率,提升百倍效率。

  • 結合量子線路與 LSTM 架構,大幅壓縮高維度數據的模型參數需求。
  • 導入量子聯邦學習分散運算,有效突破單機算力瓶頸並兼顧數據隱私。
  • 實測不到 300 參數即達成大模型準確度,實現百倍資源效率大躍升。

高能物理實驗每年產生 PB 級巨量數據,傳統模型需耗費數十萬參數與百萬筆數據訓練。最新研究結合量子計算與 LSTM 模型,僅用不到 300 個參數與 2 萬筆數據,便達成與大型模型僅差 1% 的準確率,實現 100 倍資源效率提升。

高能物理 PB 級數據運算瓶頸與量子硬體限制

大型強子對撞機(LHC)等現代高能物理實驗,每年在各大探測器(如 ATLAS、CMS 與 LHCb)產生的數據量均達到 PB(Petabyte)級別。要從這些龐大的背景雜訊中提取罕見的物理事件,往往依賴極其複雜且龐大的機器學習模型。這些模型的訓練與部署不僅受到跨國資料規模與分佈式實驗環境的限制,更面臨日益沉重的能源消耗壓力。

量子機器學習因能利用指數級增長的狀態空間,理論上可用極少的物理資源表示高維度特徵,被視為解決龐大運算需求的潛在方案。然而,當前的量子硬體仍處於 NISQ(含雜訊中介規模量子)(易受硬體雜訊干擾的現有量子設備)階段。這些設備受限於雜訊與有限的錯誤更正技術,無法獨立承載超大規模的高能物理模型訓練,亟需引入創新的運算架構來突破單機硬體的物理極限。

結合變分量子線路與 LSTM 的混合模型架構

為了在有限的量子資源下處理複雜序列特徵,研究團隊設計出結合古典神經網路與量子運算的混合模型 QLSTM(量子增強長短期記憶模型)。該模型首先透過古典的線性層對輸入向量進行投影與壓縮,確保高維度的高能物理數據能有效轉換,並適應近期的量子設備輸入限制。

隨後,這些被壓縮的特徵會透過角度編碼映射至量子態的旋轉角度上,並輸入至 VQC(變分量子線路)(具備可訓練參數的量子計算模型)。VQC 藉由多層參數化糾纏層挖掘特徵之間的非線性複雜關聯,取代了傳統神經網路的密集運算矩陣。

量子線路的測量結果會再次透過線性層映射回古典空間,並同步更新 LSTM 架構中的遺忘門、輸入門與輸出門。透過這種並行處理模式,整體模型得以兼具古典優化器的穩定訓練特性,以及量子模型在特徵映射上的強大表徵能力。

面向跨國機構協作的量子聯邦學習分散式框架

除了模型本身的架構設計,巨量數據的分佈式特性也是高能物理實驗的重大考驗。來自不同國家與機構的探測器持續產生龐大數據,若將這些機密數據集中處理,將會面臨跨國頻寬瓶頸與資料隱私的雙重挑戰。

為此,研究團隊導入聯邦學習框架,並將其與量子運算結合,設計出專為高能物理打造的量子聯邦學習(QFL)架構。在此框架中,每個對撞機或探測器被視為一個獨立節點,各自擁有本地數據儲存空間與混合量子運算的本地模型。

各機構節點利用本地端資料訓練 QLSTM 模型後,僅需將訓練好的權重參數上傳至全局伺服器進行合併與同步,無需傳輸任何原始探測數據。這種協作機制成功實現了算力與資源的全球共享,同時完美繞過了單一機構的設備與儲存限制。

SUSY 實測:不到 300 個參數的百倍效率提升

為了驗證該框架的實際表現,研究團隊採用了由 LHCb 實驗生成的 SUSY(超對稱性)數據集 進行分類任務。傳統深度學習基準模型通常需要高達 500 萬筆數據與將近 30 萬個參數才能達到理想準確率,而此次實測僅抽取其中 2 萬筆數據,並將 QLSTM 模型的總參數數量嚴格控制在 300 個以內

實驗結果顯示,以 18 項完整特徵訓練的 QLSTM 模型達成了 0.880 的最高 AUC 值0.821 的準確率。與耗費海量資源的傳統深度學習模型(AUC 約 0.87 至 0.89)相比,整體表現差距僅在 ±1% 以內。相較於單純使用 VQC 的模型(AUC 0.823),QLSTM 展現出顯著的預測優勢。

儘管在古典模擬器 PennyLane 上訓練這種混合模型耗費的時間約為純古典模型的兩倍,但其在資料需求與模型規模上達成了驚人的 100 倍資源效率躍升,明確證實了量子糾纏在提取科學數據複雜關聯時的高效率。

聯邦學習架構的節點衰退率與未來科學應用潛力

在模擬聯邦學習的實測中,研究團隊將 2 萬筆數據依 IID(獨立同分布)(假設數據樣本間互不影響且具備相同機率分布)原則,切割並均勻分配給不同數量的運算節點。隨著節點數量增加、單一節點分配到的數據量減少,模型的預測表現確實出現了微幅下滑。

然而,數據顯示 QLSTM 在多節點環境下的 AUC 衰退幅度維持在 1% 以內,曲線幾乎保持平緩;反觀單純的 VQC 模型,其表現衰退曲線則顯著陡峭。這證實了長短期記憶模型的循環架構搭配量子增強機制,能在資料碎片化的聯邦網路中,更穩定地保存分散特徵間的全局關聯。

這項研究確認了 QLSTM 結合聯邦學習在同質性數據上的卓越可行性。未來團隊計畫將此框架擴展至非同質的異質探測數據分析,並推進至真實量子硬體上進行測試,進一步評估硬體雜訊對這類混合模型訓練過程的實際影響。

量子模型以極低參數突破算力限制,為分散式科研數據提供兼顧成本與隱私的解方。

Abstract

Learning with large-scale datasets and information-critical applications, such as in High Energy Physics (HEP), demands highly complex, large-scale models that are both robust and accurate. To tackle this issue and cater to the learning requirements, we envision using a federated learning framework with a quantum-enhanced model. Specifically, we design a hybrid quantum-classical long-shot-term-memory model (QLSTM) for local training at distributed nodes. It combines the representative power of quantum models in understanding complex relationships within the feature space, and an LSTM-based model to learn necessary correlations across data points. Given the computing limitations and unprecedented cost of current stand-alone noisy-intermediate quantum (NISQ) devices, we propose to use a federated learning setup, where the learning load can be distributed to local servers as per design and data availability. We demonstrate the benefits of such a design on a classification task for the Supersymmetry(SUSY) dataset, having 5M rows. Our experiments indicate that the performance of this design is not only better that some of the existing work using variational quantum circuit (VQC) based quantum machine learning (QML) techniques, but is also comparable ($Δ\sim \pm 1\%$) to that of classical deep-learning benchmarks. An important observation from this study is that the designed framework has $<$300 parameters and only needs 20K data points to give a comparable performance. Which also turns out to be a 100$\times$ improvement than the compared baseline models. This shows an improved learning capability of the proposed framework with minimal data and resource requirements, due to the joint model with an LSTM based architecture and a quantum enhanced VQC.