Feature-level analysis and adversarial transfer in rotationally equivariant quantum machine learning
墨爾本大學最新研究揭示,量子模型的數學對稱性並不能保證防禦力,抑制特定的脆弱傅立葉模態才是確保系統強健性的關鍵。
- 量子模型的等變性僅能限縮特徵空間,無法自動過濾脆弱的預測特徵。
- STM與CIFAR等資料集過度依賴「環狀平均強度」特徵,極易遭古典攻擊轉移。
- 無需依賴資料增強,直接抑制 m=0 傅立葉模態即可大幅提升量子模型防禦力。
墨爾本大學針對量子機器學習模型進行 5 種資料集測試,發現單純的數學對稱性無法保證防禦力。當模型依賴「環狀平均強度」特徵時極易遭古典攻擊擊潰,但只要抑制特定的 m=0 傅立葉模態,就能大幅提升強健性。
測試5大資料集:幾何量子模型的對稱性盲區
量子機器學習(QML)在處理具有幾何結構的任務時,經常採用「群等變架構」(Group-equivariant architectures)來提升訓練效率。這類架構的設計初衷,是讓模型在面對旋轉、平移或排列等變換時,依然能保持預測結果的對稱性。過去針對這類架構的研究,多半聚焦於表達能力與梯度縮放等訓練指標,卻鮮少探討這些對稱性限制如何影響模型面對對抗性攻擊(Adversarial attacks)時的防禦能力。
對抗性攻擊是指透過在輸入資料中加入微小且精心設計的擾動,誘使機器學習模型產生錯誤分類。在古典機器學習領域,這已經是自動駕駛與軍事系統等高安全性應用必須克服的核心難題。近年來,研究人員開始關注量子模型是否同樣存在這類弱點。初期研究顯示,量子模型在面對由古典模型生成的轉移攻擊時,似乎具備較高的抵抗力。
為了解開這層防禦力背後的真正機制,澳洲墨爾本大學與聯邦科學與工業研究組織(CSIRO)的研究團隊,針對旋轉等變量子模型展開特徵層級的深入剖析。團隊利用包含 STM(10 個類別)、MNIST(9 個類別)、RotMNIST、RotFMNIST 以及 CIFAR(2 個類別) 等 5 種不同的資料集進行測試,試圖釐清等變性究竟是賦予了量子模型真正的強健性,或者只是讓模型依賴了不同的資料特徵。
旋轉等變架構解析:模型如何讀取環狀與軌域特徵
為了具體分析模型能存取哪些資訊,研究團隊選定了一種特定的旋轉等變量子模型架構。該架構將 n 個量子位元 的暫存器,劃分為負責處理半徑的「徑向暫存器」(Radial register,包含 $n_{rad}$ 個量子位元)與負責處理角度的「軌域暫存器」(Orbital register,包含 $n_{orb}$ 個量子位元)。
影像資料會被映射到 $N_r = 2^{n_{rad}}$ 個同心圓環上,每個圓環具備 $N_\phi = 2^{n_{orb}}$ 個角度節點。在這樣的編碼機制下,影像的旋轉等同於軌域暫存器上的循環位移。模型接著會對軌域暫存器應用量子傅立葉變換(QFT),將旋轉對稱性轉換至傅立葉基底中,透過不同的模態(m)來表示。
團隊透過數學上的「扭轉通道」(Twirling channel)概念證明,當量子模型具備群等變性且讀取機制不變時,模型實際上只能「看見」具備旋轉不變性的統計特徵。在傅立葉空間中,m=0 的平凡模態代表的是「環狀平均強度」(Ring-averaged intensities),而 m≠0 的高階模態則負責編碼圓環上更複雜的強度變化與角度相關性。這意味著所有與絕對角度有關的非對稱資訊,在模型眼中都屬於無法讀取的無效子空間。
3種輸入轉換實驗:揪出量子模型依賴的脆弱特徵
儘管扭轉通道定義了模型「可以」存取的特徵範圍,但要確認模型在訓練後「實際」依賴了哪些特徵,研究團隊設計了 3 種輸入轉換測試。第一種是 T1(正交循環擾動),這項轉換會徹底打亂影像的視覺外觀,但完全保留所有旋轉不變的統計特徵。實驗證實,經過 T1 轉換的測試資料,其準確率與乾淨資料完全相同,驗證了模型確實只依賴不變的特徵子空間。
第二種轉換是 T2(環狀隨機排列),該機制會打亂同一圓環上的角度順序,藉此破壞高階的相關性特徵,只保留最基礎的環狀平均強度(m=0)。第三種轉換則是 T3(環狀平均移除),這項轉換會刻意減去每個圓環的平均值,消滅 m=0 模態的資訊,但保留各個角度之間的相對關聯結構。
測試結果顯示,不同資料集依賴的特徵截然不同。在 STM、RotFMNIST 與 CIFAR 資料集中,即使訓練資料經過 T2 轉換破壞了空間結構,模型依然能維持極高的準確率,證明這些任務高度依賴簡單的「環狀平均強度」。相反地,MNIST 與 RotMNIST 在 T3 轉換下保留了較多有用的分類資訊,顯示這類數字辨識任務需要依賴更複雜的角度相關性特徵。
跨量子轉移攻擊:PGD與FGSM演算法的驗證
確認了模型依賴的特徵後,團隊進一步評估這些特徵在面對對抗性轉移攻擊時的強健程度。威脅模型設定為黑箱測試,攻擊者無法直接取得量子模型的參數,而是先訓練古典替代模型,包含線性分類器(LC)、多層感知器(MLP)、卷積神經網路(CNN)與 ResNet18。
攻擊者利用這些古典替代模型,結合 FGSM(快速梯度符號法) 與 PGD(投影梯度下降法) 等兩種主流攻擊演算法,生成微小的對抗性擾動,並將這些被污染的影像輸入至目標量子模型中。實驗觀察到一個關鍵現象:單純的等變性並不能保證防禦力。即使模型被限制在旋轉不變的特徵空間內,依然存在極度脆弱的環節。
數據顯示,那些高度依賴「環狀平均強度」(T2特徵)的資料集,在面對由最簡單的線性分類器(LC)所生成的 PGD 轉移攻擊時,防禦表現異常糟糕。這打破了過往「量子與古典架構差異足以阻絕攻擊轉移」的迷思;只要攻擊模型與目標模型都依賴了同樣脆弱的資料特徵(例如環狀平均值),即使底層運算架構完全不同,對抗性攻擊依然能有效跨越邊界。
抑制m=0傅立葉模態:從架構根本提升防禦力
面對這些脆弱的特徵,傳統的修補方式是採用「對抗性訓練」(Adversarial training),也就是將含有擾動的樣本混入訓練集中。團隊測試後發現,雖然對抗性訓練能提升模型面對特定攻擊的存活率,但往往會大幅犧牲模型在乾淨資料上的預測準確度,產生難以妥協的兩難局面。
為此,研究團隊提出了一種不需要依賴資料增強的架構修復策略:直接修改讀取層(Readout modification)。既然先前的分析已經揪出 m=0 這個傅立葉模態是導致模型脆弱的罪魁禍首,團隊便在測量算符中加入投影矩陣,強制過濾掉代表環狀平均強度的資訊。
這項針對性的架構微調取得了顯著成效。實驗證實,直接抑制 m=0 模態不僅能在面對 LC 與 MLP 攻擊時提供保護,在抵禦 CNN 與 ResNet18 所生成的複雜空間擾動時,其防禦力的提升幅度甚至超越了耗時的對抗性訓練,同時也更妥善地保留了原本的分類準確率。這套特徵層級的分析框架,為未來設計更安全的量子機器學習系統奠定了清晰的工程基礎。
對稱性無法免疫攻擊;精準抑制脆弱的傅立葉特徵模態,才是量子模型提升防禦力的關鍵。