TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models
頂尖 AI 模型 FLUX 生成特定良性概念組合時,產生隱性違規圖像機率高達 99.52%,揭示既有安全機制的重大盲區。
- 模型指令服從度越高,對多概念組合產生的隱性安全威脅反而越脆弱。
- 主流過濾器如 LLaVA-Guard 召回率僅 41%,因其訓練數據缺乏組合性風險案例。
- 防禦重點應從抹除單一概念權重,轉向打破模型交叉注意力層的語義綁定。
圖像生成模型在理解複雜指令上取得巨大進展,但面對組合型安全測試時卻顯得不堪一擊。最新研究顯示,當輸入由單純良性詞彙組成的特定提示時,頂尖開源模型 FLUX.1 產生不安全圖像的機率高達 99.52%。這種由單一安全概念組合而成的隱性風險,正成為生成式人工智慧亟需解決的邊界問題。
拆解 TwoHamsters 定義的 17.5k 筆組合漏洞
現有 T2I(Text-to-Image,文字生成圖像)模型的安全對齊機制,主要針對血腥、色情等具備明確視覺特徵的惡意提示詞。然而,研究團隊發現了另一種難以防範的漏洞:MCCU(多概念組合不安全性)。這類提示詞由完全良性的原子概念組成(例如「特定農作物」與「特定膚色人物」),單獨存在時毫無危險,但在特定社會或歷史脈絡下組合,卻會生成具備高度冒犯性或歧視性的圖像。
為量化此風險,研究團隊建構了 TwoHamsters 基準測試(命名源自倉鼠獨居天性,兩隻放在一起會產生致命衝突)。該數據集包含 17.5k 筆精心策劃的提示詞,涵蓋 10 大主要風險類別與 51 種細緻的概念配對。透過嚴格的相似度過濾與視覺語言模型驗證,確保這些提示詞僅透過概念組合觸發風險,而不包含任何直接的違規詞彙。
同時,研究提出了三大衡量指標:MDR(MCCU 防禦率)評估抵抗組合風險的能力,以及 SCR(單一概念保留率)與 NCR(非目標概念保留率)來衡量模型阻擋風險後,是否依然能保持正常的生成效用。這套架構為評估生成模型的安全與效用折衷,提供了首個定量標準。
指令服從度與安全的矛盾:FLUX 防禦率趨近零
在針對 10 款最先進的 T2I 模型進行測試後,研究揭示了一個反直覺的「指令與安全」困境。隨著模型架構演進,生成品質與提示詞遵從能力越高的模型,對 MCCU 的防禦力反而越低。早期基於 U-Net 架構的模型(如 SD-v1.4)尚能保持 40.91% 的基準 MDR,但採用最新 DiT(Diffusion Transformer,擴散變換器)架構的 FLUX.1,其 MDR 卻直線下滑至接近 0%。
這表明當前模型的對齊策略僅停留在「語義組合」,而非「價值判斷」。模型能夠完美執行將兩種普通物件組合的指令,卻缺乏社會常識來辨識組合後湧現的毒性。一旦針對指令精準度進行極致優化,等同於為這些隱性風險大開後門。
此外,實驗暴露出嚴重的分類偏誤。當前安全防護過度集中於具有明顯視覺特徵的色情內容(平均 MDR 為 21.85%),但在涉及複雜社會語義的類別中,如騷擾(平均 MDR 僅 8.81%)、仇恨言論與政治敏感議題上,模型的防禦機制幾乎形同虛設。
LLaVA-Guard 召回率 41%:主流過濾器失效
除了檢測生成模型本身,研究亦橫向評估了 7 款業界主流的安全過濾器。結果顯示,廣泛部署於現有 T2I 流程中的基礎工具(如 SD Safety Checker)對 TwoHamsters 數據集的敏感度極低,幾乎無法攔截由多概念組合引發的違規內容。
即便是經過特定安全微調的視覺語言模型,表現同樣不如預期。LLaVA-Guard 的整體召回率僅 41.06%,而 PerspectiveVision 更只有 18.56%,兩者在公共衛生與自殘等類別的攔截率甚至不到 10%。這些過濾器過度依賴單一物件的明確特徵,面對 MCCU 這種需要結合上下文理解的威脅時,便失去判斷能力。
為確認這是否源於架構本身的限制,研究團隊利用 TwoHamsters 訓練集微調出 MCCU-ViT 評估器。該評估器導入多頭因果一致性機制,不僅辨識整體圖像安全性,還同步驗證原子概念的對齊程度。結果 MCCU-ViT 在測試集上達到了 99.49% 的召回率。這證明主流過濾器之所以失效,並非由於神經網路的容量不足,而是過去的訓練範式完全遺漏了 MCCU 這類隱性組合數據。
CLIP 特徵空間:惡意語意如何寄生於良性概念
為深入理解 MCCU 在模型內部的運作機制,研究團隊透過 CLIP-ViT 萃取圖像嵌入向量,並使用 t-SNE 演算法將其投射至二維特徵空間。結果顯示,MCCU 生成的圖像,其分佈位置精準落在兩個良性組成概念的過渡區域內。
從量化數據來看,這些風險圖像與原提示詞(單純的良性組合)的餘弦相似度,遠高於它們與「明確惡意詞彙」的關聯度。這意味著在模型的特徵空間中,MCCU 巧妙地「寄生」在良性概念的重疊處,與傳統認知的惡意語意保持著相當的距離,從而輕易躲過傳統防禦系統的偵測。
進一步分析 FLUX 模型的交叉注意力圖層,研究發現模型能準確將注意力集中在單一的良性詞彙上,但處理這類提示詞時,卻無法將這些局部特徵整合,形成對潛在惡意意圖的全域理解。這項發現解釋了為何模型在生成高保真細節時,依然會無意識地越過安全紅線。
概念消除遭遇瓶頸:從抹除權重轉向組合解耦
業界目前常以「概念消除(Concept Erasure)」技術來微調模型,試圖讓模型「遺忘」特定危險內容。但在測試 ESD、UCE 等 9 種主流概念消除方法後,研究發現模型陷入了「無效消除」與「效能崩潰」的雙重困境。對於參數龐大的模型(如 SDXL),既有方法難以撼動其深層關聯,導致 MDR 未見顯著提升;而強行干預的結果,往往是大幅破壞模型生成日常物件的單一概念保留率。
這是因為傳統安全研究假設惡意數據與良性數據在特徵上是兩個獨立的流形(Manifold)。然而 MCCU 數據是完全交纏的。既然觸發條件是由完全合法、日常的詞彙構成,直接抹除這些概念,等同於摧毀模型基礎的生成能力。
研究指出,未來的安全對齊必須發生典範轉移。與其試圖把概念向量徹底清零,防禦機制應著眼於「組合解耦(Compositional Disentanglement)」。透過打破交叉注意力層中的語義綁定,確保良性概念的啟動模式與敏感的上下文維持計算上的正交性。唯有從阻斷邏輯關聯著手,才能在不損及模型知識庫的前提下,根絕惡意組合的生成。
阻擋生成式 AI 潛藏風險的關鍵,不在於粗暴抹除單一概念,而在於切斷良性特徵之間的惡意語意連結。