Feature-level analysis and adversarial transfer in rotationally equivariant quantum machine learning

Maureen Krumtünger, Martin Sevior, Muhammad Usman

View Original ↗
AI 導讀 technology AI 重要性 4/5

墨爾本大學最新研究揭示,量子模型的數學對稱性並不能保證防禦力,抑制特定的脆弱傅立葉模態才是確保系統強健性的關鍵。

  • 量子模型的等變性僅能限縮特徵空間,無法自動過濾脆弱的預測特徵。
  • STM與CIFAR等資料集過度依賴「環狀平均強度」特徵,極易遭古典攻擊轉移。
  • 無需依賴資料增強,直接抑制 m=0 傅立葉模態即可大幅提升量子模型防禦力。

墨爾本大學針對量子機器學習模型進行 5 種資料集測試,發現單純的數學對稱性無法保證防禦力。當模型依賴「環狀平均強度」特徵時極易遭古典攻擊擊潰,但只要抑制特定的 m=0 傅立葉模態,就能大幅提升強健性。

測試5大資料集:幾何量子模型的對稱性盲區

量子機器學習(QML)在處理具有幾何結構的任務時,經常採用「群等變架構」(Group-equivariant architectures)來提升訓練效率。這類架構的設計初衷,是讓模型在面對旋轉、平移或排列等變換時,依然能保持預測結果的對稱性。過去針對這類架構的研究,多半聚焦於表達能力與梯度縮放等訓練指標,卻鮮少探討這些對稱性限制如何影響模型面對對抗性攻擊(Adversarial attacks)時的防禦能力。

對抗性攻擊是指透過在輸入資料中加入微小且精心設計的擾動,誘使機器學習模型產生錯誤分類。在古典機器學習領域,這已經是自動駕駛與軍事系統等高安全性應用必須克服的核心難題。近年來,研究人員開始關注量子模型是否同樣存在這類弱點。初期研究顯示,量子模型在面對由古典模型生成的轉移攻擊時,似乎具備較高的抵抗力。

為了解開這層防禦力背後的真正機制,澳洲墨爾本大學與聯邦科學與工業研究組織(CSIRO)的研究團隊,針對旋轉等變量子模型展開特徵層級的深入剖析。團隊利用包含 STM(10 個類別)MNIST(9 個類別)RotMNISTRotFMNIST 以及 CIFAR(2 個類別) 等 5 種不同的資料集進行測試,試圖釐清等變性究竟是賦予了量子模型真正的強健性,或者只是讓模型依賴了不同的資料特徵。

旋轉等變架構解析:模型如何讀取環狀與軌域特徵

為了具體分析模型能存取哪些資訊,研究團隊選定了一種特定的旋轉等變量子模型架構。該架構將 n 個量子位元 的暫存器,劃分為負責處理半徑的「徑向暫存器」(Radial register,包含 $n_{rad}$ 個量子位元)與負責處理角度的「軌域暫存器」(Orbital register,包含 $n_{orb}$ 個量子位元)。

影像資料會被映射到 $N_r = 2^{n_{rad}}$ 個同心圓環上,每個圓環具備 $N_\phi = 2^{n_{orb}}$ 個角度節點。在這樣的編碼機制下,影像的旋轉等同於軌域暫存器上的循環位移。模型接著會對軌域暫存器應用量子傅立葉變換(QFT),將旋轉對稱性轉換至傅立葉基底中,透過不同的模態(m)來表示。

團隊透過數學上的「扭轉通道」(Twirling channel)概念證明,當量子模型具備群等變性且讀取機制不變時,模型實際上只能「看見」具備旋轉不變性的統計特徵。在傅立葉空間中,m=0 的平凡模態代表的是「環狀平均強度」(Ring-averaged intensities),而 m≠0 的高階模態則負責編碼圓環上更複雜的強度變化與角度相關性。這意味著所有與絕對角度有關的非對稱資訊,在模型眼中都屬於無法讀取的無效子空間。

3種輸入轉換實驗:揪出量子模型依賴的脆弱特徵

儘管扭轉通道定義了模型「可以」存取的特徵範圍,但要確認模型在訓練後「實際」依賴了哪些特徵,研究團隊設計了 3 種輸入轉換測試。第一種是 T1(正交循環擾動),這項轉換會徹底打亂影像的視覺外觀,但完全保留所有旋轉不變的統計特徵。實驗證實,經過 T1 轉換的測試資料,其準確率與乾淨資料完全相同,驗證了模型確實只依賴不變的特徵子空間。

第二種轉換是 T2(環狀隨機排列),該機制會打亂同一圓環上的角度順序,藉此破壞高階的相關性特徵,只保留最基礎的環狀平均強度(m=0)。第三種轉換則是 T3(環狀平均移除),這項轉換會刻意減去每個圓環的平均值,消滅 m=0 模態的資訊,但保留各個角度之間的相對關聯結構。

測試結果顯示,不同資料集依賴的特徵截然不同。在 STM、RotFMNIST 與 CIFAR 資料集中,即使訓練資料經過 T2 轉換破壞了空間結構,模型依然能維持極高的準確率,證明這些任務高度依賴簡單的「環狀平均強度」。相反地,MNIST 與 RotMNIST 在 T3 轉換下保留了較多有用的分類資訊,顯示這類數字辨識任務需要依賴更複雜的角度相關性特徵。

跨量子轉移攻擊:PGD與FGSM演算法的驗證

確認了模型依賴的特徵後,團隊進一步評估這些特徵在面對對抗性轉移攻擊時的強健程度。威脅模型設定為黑箱測試,攻擊者無法直接取得量子模型的參數,而是先訓練古典替代模型,包含線性分類器(LC)、多層感知器(MLP)、卷積神經網路(CNN)與 ResNet18

攻擊者利用這些古典替代模型,結合 FGSM(快速梯度符號法)PGD(投影梯度下降法) 等兩種主流攻擊演算法,生成微小的對抗性擾動,並將這些被污染的影像輸入至目標量子模型中。實驗觀察到一個關鍵現象:單純的等變性並不能保證防禦力。即使模型被限制在旋轉不變的特徵空間內,依然存在極度脆弱的環節。

數據顯示,那些高度依賴「環狀平均強度」(T2特徵)的資料集,在面對由最簡單的線性分類器(LC)所生成的 PGD 轉移攻擊時,防禦表現異常糟糕。這打破了過往「量子與古典架構差異足以阻絕攻擊轉移」的迷思;只要攻擊模型與目標模型都依賴了同樣脆弱的資料特徵(例如環狀平均值),即使底層運算架構完全不同,對抗性攻擊依然能有效跨越邊界。

抑制m=0傅立葉模態:從架構根本提升防禦力

面對這些脆弱的特徵,傳統的修補方式是採用「對抗性訓練」(Adversarial training),也就是將含有擾動的樣本混入訓練集中。團隊測試後發現,雖然對抗性訓練能提升模型面對特定攻擊的存活率,但往往會大幅犧牲模型在乾淨資料上的預測準確度,產生難以妥協的兩難局面。

為此,研究團隊提出了一種不需要依賴資料增強的架構修復策略:直接修改讀取層(Readout modification)。既然先前的分析已經揪出 m=0 這個傅立葉模態是導致模型脆弱的罪魁禍首,團隊便在測量算符中加入投影矩陣,強制過濾掉代表環狀平均強度的資訊。

這項針對性的架構微調取得了顯著成效。實驗證實,直接抑制 m=0 模態不僅能在面對 LC 與 MLP 攻擊時提供保護,在抵禦 CNN 與 ResNet18 所生成的複雜空間擾動時,其防禦力的提升幅度甚至超越了耗時的對抗性訓練,同時也更妥善地保留了原本的分類準確率。這套特徵層級的分析框架,為未來設計更安全的量子機器學習系統奠定了清晰的工程基礎。

對稱性無法免疫攻擊;精準抑制脆弱的傅立葉特徵模態,才是量子模型提升防禦力的關鍵。

Abstract

Group-equivariant quantum models are designed to exploit symmetry and can improve trainability, but it remains unclear how symmetry constraints shape their adversarial robustness. We study this question through a feature-level analysis of equivariant quantum models in a transfer-attack setting. Under equivariance with an invariant readout, predictions depend only on the group-twirled input, which identifies the symmetry-invariant information accessible to the model together with a complementary uninformative subspace. Specializing this framework to a rotationally equivariant quantum model, we derive an explicit characterization of the accessible information in terms of rotation-invariant image statistics distributed across distinct symmetry sectors. Using targeted input transformations, we determine which of these statistics are actually relied upon for classification across several datasets. We find that equivariance alone does not guarantee transfer robustness: even within the restricted invariant feature space, the model can rely on brittle statistics, particularly ring-averaged intensities in the rotationally equivariant model, that remain vulnerable to classical transfer attacks. Guided by this analysis, we show that suppressing the symmetry sector associated with the brittle feature substantially improves robustness. These results establish a systematic mechanism to exploit symmetry-dependent features for adversarial robustness in future quantum machine learning models.