Critical Bits in Neural Networks (6 minute read)
翻轉 2 個位元讓 ResNet-50 準確率歸零:DNL 攻擊證明所有主流 AI 架構的致命弱點都在儲存層
- ResNet-50 只需 2 次符號位元翻轉,準確率從 76.1% 崩至 0%,無需任何訓練資料
- Qwen3-30B 僅需 2 次有針對性的位元翻轉,推理準確率從 78% 跌至 0%,語言模型同樣脆弱
- 保護頂部 0.1%–1% 的關鍵參數即可大幅提升韌性,防禦代價遠低於攻擊所需的搜尋成本
只需翻轉 ResNet-50 模型中的兩個符號位元,影像辨識準確率就從 76.1% 直墜至 0%。攻擊者不需要任何訓練資料,不需要反向傳播計算,只要取得儲存在磁碟上的模型權重寫入權限,整個系統就能在數秒內完全失能。這篇發表於 Transactions on Machine Learning Research 的研究,提出名為 Deep Neural Lesion(DNL) 的無資料攻擊法,並在超過 60 個影像分類器與多款大型語言模型上系統性驗證了這一弱點的普遍性。
符號位元翻轉:最小代價的最大破壞
DNL 攻擊的操作邏輯非常精簡:找出模型早期層(early layers)中絕對值最大的幾個權重,翻轉它們的符號位元——把正值變負、負值變正。這個操作不需要看任何一筆真實資料,計算量幾乎為零。
符號位元翻轉的破壞力來自三個疊加效果。第一,翻轉符號等於把一個權重從 +x 瞬間變成 −x,對下一層的特徵圖(feature map)造成最大化干擾,遠比把值改成某個小數值的影響更徹底。第二,早期卷積核(kernel)負責提取基礎視覺特徵(邊緣、紋理),一旦被破壞,錯誤的特徵表示會逐層放大傳遞,污染整個網路的輸出。第三,在硬體層面,翻轉固定位置的某一個位元比寫入特定數值容易得多,這讓 DNL 在物理攻擊情境中具有很高的可操作性。
研究提出兩個攻擊變體:Pass-Free DNL 完全基於量值啟發式規則,零額外計算;Enhanced 1-Pass DNL 用單次前向與反向傳播在隨機輸入上微調目標選擇,以極小的運算代價換取更強的攻擊精準度。兩者均無需真實訓練資料,差距主要在攻擊者是否有條件執行一次模型推論。
| 變體 | 計算需求 | 資料需求 | 特點 |
|---|---|---|---|
| Pass-Free DNL | 零額外計算 | 無需任何資料 | 量值啟發式選目標,可完全離線執行 |
| Enhanced 1-Pass DNL | 單次前向+反向傳播 | 隨機輸入(非真實資料) | 微調參數選擇,攻擊成功率更高 |
Pass-Free 適合資源受限場景,1-Pass 版本以極小代價換取更高精準度
60 個影像模型到 Qwen3-30B:各架構崩潰數字一覽
影像分類的評估橫跨 60 個分類器,涵蓋 timm 和 Torchvision 的 48 個 ImageNet 模型,架構包括 ResNet、EfficientNet、Vision Transformer(ViT)及混合架構。ResNet-50 僅需 2 次翻轉,準確率從 76.1% 跌至 0.0%(下降 99.8%);EfficientNet-B7 需 3 次翻轉,準確率也下降 95% 以上。Vision Transformer 的早期 block 同樣是關鍵脆弱點,模式與 CNN 高度一致——架構不同,早期層大權值的高危性質不變。
目標偵測與分割系統的崩潰更為直接:Mask R-CNN 的骨幹(backbone)在 1–2 次翻轉後,AP(Average Precision)與 Mask AP 雙雙歸零;YOLOv8-seg 同樣在 1–2 次早期層翻轉後偵測與分割全面瓦解。研究指出一個重要的結構性細節:骨幹是致命弱點,但骨幹之上的偵測頭(detection head)有一定容錯空間,這說明攻擊必須精準瞄準骨幹的早期參數才有效。
語言模型部分同樣全面覆蓋。Qwen3-30B-A3B(混合專家架構,MoE)僅需 2 次翻轉,推理準確率從 78% 跌至 0%;Qwen3-4B 需要 14 次全層翻轉達成 100% 精度崩潰;Nemotron 8B 在前 5 個 block 施加 32 次翻轉後完全失效。BERT 與 RoBERTa 等編碼器模型早期層同樣高危。更值得注意的是失敗模式:被攻擊的語言模型不是輸出「小錯誤」的答案,而是退化成重複、無意義的雜訊——這是災難性失效(catastrophic failure),不是優雅降級(graceful degradation)。
括號內為所需翻轉次數;資料來源:論文原始結果
現實威脅模型:攻擊者只需要儲存層寫入權限
DNL 對攻擊者的前提極為精簡:只需要模型儲存位置的寫入權限,不需要取得訓練資料、不需要執行模型、不需要知道輸入分佈。這個條件在實際攻擊情境中並不遙遠。
研究列舉的可行攻擊路徑包括:韌體漏洞(firmware exploit) 可讓攻擊者在系統底層取得寫入權限;rootkit 能在作業系統層持久化後門並修改儲存中的模型檔案;DMA 攻擊(Direct Memory Access,直接記憶體存取)可繞過 CPU 直接修改記憶體內容;Rowhammer 漏洞則是一種利用 DRAM 物理特性的硬體攻擊——透過反覆存取相鄰記憶體列誘發位元翻轉,在嵌入式設備與雲端伺服器環境中均有實際利用案例。
研究也明確指出,常見的防禦措施對 DNL 基本無效:權重量化(weight quantization)、模型剪枝(pruning)、簡單校驗和(checksumming) 都無法阻擋符號位元的針對性翻轉。DNL 的無資料特性也讓事後追蹤與來源歸因異常困難,攻擊者幾乎不留下可識別的操作痕跡。
防禦代價遠低於攻擊搜尋成本
研究在揭示漏洞的同時,也提出了一個比預期更樂觀的防禦結論:選擇性強化(selective hardening)頂部 0.1%–1% 最脆弱的參數,就能在幾乎不影響模型效能的情況下大幅提升系統韌性。
這個「不對稱性」是整篇研究最具啟發性的發現之一。攻擊者需要準確定位並翻轉少數幾個關鍵位元;防禦者則只需要對已知的少量高危參數施加保護(例如記憶體保護位元、加密儲存、完整性雜湊驗證),且這個防禦成本隨模型規模增大的幅度,遠低於攻擊搜尋本身的計算代價。研究坦承的主要未解問題,是如何在邊緣設備(edge device)或量化部署環境中實際落地這些保護機制,特別是在資源受限的嵌入式推論場景下,這仍是開放的工程挑戰。
AI 系統的安全性不取決於模型有幾千億個參數——2 個位元就能讓 ResNet-50 歸零,保護 0.1% 的關鍵權重才是真正的防線。